Skip to content
LlamaPDFLlamaPDF
🔍

PDF uz tekstu (OCR)

Izvilkt tekstu no skenētiem PDF failiem

Pēdējoreiz atjaunināts:

OCR izvelk tekstu no attēliem un PDF failiem. LlamaPDF vispirms pārbauda, vai PDF jau satur atlasāmu teksta slāni, un kopē to tieši — ātri un bez zudumiem. Ja nē (vai attēliem), tas atkāpjas uz Tesseract.js, kas darbojas pilnībā tavā pārlūkā un atbalsta 100+ valodas ar izvēles automātisku noteikšanu.

Velciet un nometiet failu šeit

vai noklikšķiniet, lai izvēlētos

.PDF.JPG.PNG.WEBP

Maks. 50 MB · Reģistrācija nav nepieciešama

Jūsu fails paliek jūsu ierīcē — nekad netiek augšupielādēts

Kā izmantot OCR PDF failā

  1. 1

    Augšupielādējiet skenētu PDF vai attēlu.

  2. 2

    Izvēlieties dokumenta valodu.

  3. 3

    Lejupielādējiet rediģējamo PDF vai kopējiet tekstu.

Kāpēc izmantot OCR ar LlamaPDF?

Skenētos PDF failos tekstu nevar meklēt vai rediģēt. LlamaPDF OCR (Optical Character Recognition) analizē attēlus un izvelk tekstu — lieliski piemērots vecajiem dokumentiem, čekiem un līgumiem.

Pēc OCR varat saspiest, sadalīt vai aizsargāt failu.

Kas ir OCR?

OCR (Optical Character Recognition) ir tehnoloģija, kas atpazīst un izvelk tekstu no attēliem un skenētiem dokumentiem. Tā pārveido nerediģējamu attēla saturu digitālā tekstā, kurā var meklēt, kopēt un rediģēt.

Biežāk uzdotie jautājumi

Kādas valodas OCR atbalsta?

Vairāk nekā 100 valodu caur Tesseract.js. Izvēlieties jebkuru valodu no izkrītošā saraksta vai kombinējiet līdz 3 valodām daudzvalodu dokumentiem.

Cik precīza ir teksta izvilkšana?

Skaidras, augstas izšķirtspējas skenēšanas parasti sasniedz 90-98% precizitāti.

Kāpēc dažkārt 100 lappušu PDF tiek apstrādāts sekundes laikā?

Ja PDF jau satur izvēlamu teksta slāni (digitāls, nevis skenēts), tekts tiek izvilkts tieši, nevis palaižot OCR. Skenētiem PDF failiem bez teksta slāņa OCR tiek palaists katrā lapā.

Saistītie rīki