Skip to content
LlamaPDFLlamaPDF
🔍

PDF į tekstą (OCR)

Ištraukite tekstą iš nuskaitytų PDF

Paskutinį kartą atnaujinta:

OCR ištraukia tekstą iš paveikslų ir PDF failų. LlamaPDF pirmiausia patikrina, ar PDF jau turi žymimą teksto sluoksnį, ir nukopijuoja jį tiesiogiai — greitai ir be nuostolių. Jei ne (arba paveiksluose), jis grįžta į Tesseract.js, kuris veikia visiškai tavo naršyklėje, palaikydamas 100+ kalbų su pasirenkamu automatiniu atpažinimu.

Vilkite ir numeskite failą čia

arba spustelėkite pasirinkti

.PDF.JPG.PNG.WEBP

Maks. 50 MB · Registracija nereikalinga

Jūsų failas lieka jūsų įrenginyje — niekada neįkeliamas

Kaip naudoti OCR PDF faile

  1. 1

    Įkelkite nuskaitytą PDF arba vaizdą.

  2. 2

    Pasirinkite dokumento kalbą.

  3. 3

    Atsisiųskite redaguojamą PDF arba kopijuokite tekstą.

Kodėl naudoti OCR su LlamaPDF?

Nuskaitytuose PDF failuose tekstas neieškomas ir neredaguojamas. LlamaPDF OCR (Optical Character Recognition) analizuoja vaizdus ir išskiria tekstą — puikiai tinka seniems dokumentams, kvitams ir sutartims.

Po OCR galite suspausti, padalinti arba apsaugoti failą.

Kas yra OCR?

OCR (Optical Character Recognition) yra technologija, atpažįstanti ir išskirianti tekstą iš vaizdų ir nuskaitytų dokumentų. Ji konvertuoja neredaguojamą vaizdo turinį į skaitmeninį tekstą, kuriame galima ieškoti, kopijuoti ir redaguoti.

Dažniausiai užduodami klausimai

Kokias kalbas palaiko OCR?

Daugiau nei 100 kalbų per Tesseract.js. Pasirinkite bet kurią kalbą iš sąrašo arba sujunkite iki 3 kalbų daugiakalbiams dokumentams.

Koks tikslus teksto ištraukimas?

Aiškios, didelės raiškos skenuotos kopijos paprastai pasiekia 90–98% tikslumą.

Kodėl kartais 100 puslapių PDF apdorojamas per sekundę?

Jei PDF jau turi pasirenkamą teksto sluoksnį (skaitmeninį, ne skenuotą), tekstas ištraukiamas tiesiogiai, nevykdant OCR. Skenuotuose PDF be teksto sluoksnio OCR vyksta kiekviename puslapyje.

Susiję įrankiai