PDF-г Текст болгох (OCR)
Сканнердсан PDF-ээс текст гаргаж авах
Сүүлд шинэчилсэн:OCR нь зураг болон PDF-ээс текст гаргаж авдаг. LlamaPDF эхлээд PDF-д сонгож болохуйц текстийн давхарга байгаа эсэхийг шалгаж, түүнийг шууд хуулдаг — хурдан бөгөөд алдагдалгүй. Хэрэв байхгүй бол (эсвэл зургийн хувьд), 100+ хэлийг дэмждэг, заавал бус автомат илрүүлэлттэй Tesseract.js-г таны хөтөч дотор бүхэлдээ ажиллуулдаг.
Файлаа энд чирж оруулна уу
эсвэл дарж сонгоно уу
Дээд тал нь 50 МБ · Бүртгэл шаардахгүй
Таны файл төхөөрөмж дээр хэвээр байна — хэзээ ч байршуулахгүй
OCR ашиглан PDF эсвэл зургаас текст хэрхэн задлах вэ
- 1
Сканнердсан PDF эсвэл зургийн файлаа дээш чирж оруулах эсвэл хөтлөх товч дарж сонгоно уу. PDF, PNG, JPG, TIFF, BMP болон WebP форматуудыг дэмждэг.
- 2
Хамгийн өндөр таних нарийвчлалыг хангахын тулд баримт бичгийн текстийн хэлийг сонгоно уу. Олон хэлт баримт бичгийн хувьд хамаарах бүх хэлийг сонгоно уу. OCR хөдөлгүүр баганын, хүснэгтийн болон толгойн бүтцийг оруулан бүх баримт бичгийн бүтцийг задлан шинжилнэ.
- 3
Оптик тэмдэгт таних боловсруулалтыг эхлүүлэхийн тулд Текст задлах товчийг дарна уу. Задлагдсан текстийг хянаж хуулж авах эсвэл текст файлаар татаж авна уу. Бүх OCR боловсруулалт нь нарийн таних алгоритм ашиглан шууд браузер дотор ажилладаг — баримт бичгүүдийг хэзээ ч сервер рүү байршуулахгүй тул нууцлал бүрэн хангагдана.
Яагаад манай OCR хэрэгслийг ашиглах вэ?
Сканнердсан баримт, зурган дахь хуудас болон зургийн суурьт PDF нь үнэт текстийг зурган дотор хаадаг. Харааны сканыг машинд уншигдах текст болгон хөрвүүлэхгүйгээр тухайн контентийг хайх, хуулах, засварлах эсвэл дахин ашиглах боломжгүй байдаг. Манай OCR хэрэгсэл баримт бичгийн харааны бүтцийг задлан шинжилж, арвин хэлний хэвлэгдсэн текстийг өндөр нарийвчлалтайгаар бүх үгийг задалдаг. Нэг хуудасны баримт болон зургаас эхлээд олон хуудасны сканнердсан гэрээ, эрдэм шинжилгээний бүтээл хүртэл бүхнийг даван тусгаарлалтгүй хэлэнд хэвлэгдсэн текстийг олон баганын хуудас болон хүснэгтийг оруулан унших дарааллыг хадгалж боловсруулдаг. Нэг зочид буудлын баримтнаас томоохон архивын байгууллагаас сканнердсан мянган хуудас хүртэл энэ хэрэгсэл найдвартай ажилладаг.
Бүх боловсруулалт таны браузер дотор орон нутгийн аргаар ажилладаг тул эрх зүйн гэрээ, эмнэлгийн бүртгэл, санхүүгийн тайлан зэрэг нууц баримт бичгүүд таны төхөөрөмжийг хэзээ ч орхихгүй. Байршуулалт байхгүй, клаудын боловсруулалт байхгүй, гуравдагч этгээдийн нэвтрэлт байхгүй. Нэг зураг эсвэл дэлгэцийн зургаас текст задлах зэрэг энгийн ажлын хувьд зургаас текст гаргах хэрэгсэл илүү хялбар сонголт болно. Задлагдсан текст бэлэн болсны дараа текстийг PDF болгох хөрвүүлэгч-ийг ашиглан зохих баримт бичиг үүсгэх эсвэл анхны PDF-ийг шууд засварлах боломжтой. Сканнердсан хүснэгттэй ажиллах шаардлагатай бол текстийг эндээс задлаж, JSON-CSV хөрвүүлэгч-ийг ашиглан өгөгдлөө бүтэцжүүлнэ үү. Бүртгэл шаардахгүй, хуудасны хязгаарлалтгүй, бүрэн үнэгүй.
OCR гэж юу вэ?
OCR (Optical Character Recognition буюу Оптик тэмдэгт таних) технологи нь сканнердсан баримт, гэрэл зураг эсвэл зургийн суурьт PDF-ийн текстийн зургуудыг машинд уншигдах, засварлах боломжтой текст болгон хөрвүүлдэг технологи юм. OCR хөдөлгүүр нь үсэг, тоо болон тэмдэгтүүдийг тодорхойлохын тулд зургийн тэмдэгтүүдийн хэлбэр, хэв маяг болон орон зайн харилцааг задлан шинжилдэг. Орчин үеийн OCR хэдэн зуун хэлийг дэмжиж, янз бүрийн фонт, хэмжээ болон макет хэлбэртэй ажиллаж чадна. Баримт бичгийг дижиталчлах, хайлт хийх боломжтой PDF үүсгэх, автоматжуулсан өгөгдөл оруулах болон хэвлэгдсэн текстийг чанга уншдаг хүртээмжийн хэрэгслүүдийн суурь технологи юм.