Skip to content
LlamaPDFLlamaPDF
🔍

PDF tekstiks (OCR)

Eralda tekst skaneeritud PDF-idest

Viimati uuendatud:

OCR ekstraheerib teksti piltidelt ja PDF-idelt. LlamaPDF kontrollib esmalt, kas PDF juba sisaldab valitavat tekstikihti, ja kopeerib selle otse — kiire ja kadudeta. Kui mitte (või piltide puhul), kasutab see varuvariandina Tesseract.js-i, mis jookseb täielikult sinu brauseris ja toetab 100+ keelt koos valikulise automaatse tuvastusega.

Lohista fail siia

või klõpsa valimiseks

.PDF.JPG.PNG.WEBP

Max 50 MB · Registreerimine pole vajalik

Sinu fail jääb sinu seadmesse — seda ei laadita üles

OCR kasutamine PDF-il

  1. 1

    Laadi üles skannitud PDF või pilt.

  2. 2

    Vali dokumendi keel.

  3. 3

    Laadi redigeeritav PDF alla või kopeeri tekst.

Miks kasutada OCR-i LlamaPDF-iga?

Skannitud PDF-idest ei saa tekstis otsida ega seda redigeerida. LlamaPDF-i OCR (Optical Character Recognition) analüüsib pilte ja eraldab teksti — sobib ideaalselt vanadele dokumentidele, kviitungitele ja lepingutele.

Pärast OCR-i saad tihendada, jagada või kaitsta faili.

Mis on OCR?

OCR (Optical Character Recognition) on tehnoloogia, mis tuvastab ja eraldab teksti piltidest ja skannitud dokumentidest. See teisendab mitteredigeeritava pildi sisu digitaalseks tekstiks, mida saab otsida, kopeerida ja redigeerida.

Korduma Kippuvad Küsimused

Milliseid keeli OCR toetab?

Üle 100 keele Tesseract.js kaudu. Vali rippmenüüst ükskõik milline keel või kombineeri kuni 3 keelt mitmekeelsete dokumentide jaoks.

Kui täpne on teksti väljavõtmine?

Selged, kõrge eraldusvõimega skaneeringud saavutavad tavaliselt 90-98% täpsuse.

Miks töödeldakse 100-leheküljelist PDF-i mõnikord sekundiga?

Kui PDF-il on juba valitav tekstikiht (digitaalne, mitte skaneeritud), eraldatakse tekst otse ilma OCR-i käivitamata. Tekstikihita skaneeritud PDF-ide puhul käivitatakse täielik OCR igal leheküljel.

Seotud tööriistad