Skip to content
LlamaPDFLlamaPDF
🔍

PDF í texta (OCR)

Draga texta úr skönnuðum PDF-skrám

Síðast uppfært:

OCR dregur texta úr myndum og PDF skjölum. LlamaPDF athugar fyrst hvort PDF inniheldur þegar valanlegt textalag og afritar það beint — hratt og taplaust. Ef ekki (eða fyrir myndir), fellur það aftur á Tesseract.js sem keyrir alfarið í vafranum þínum, með stuðningi við 100+ tungumál með valfrjálsri sjálfvirkri greiningu.

Dragðu og slepptu skránni þinni hér

eða smelltu til að velja

.PDF.JPG.PNG.WEBP

Hámark 50 MB · Engin skráning þörf

Skráin þín er á tækinu þínu — aldrei hlaðið upp

Hvernig á að draga texta úr PDF eða mynd með OCR

  1. 1

    Settu upp skannaða PDF eða myndskrá þína með því að draga hana inn í reitinn hér að ofan eða smella til að vafra. Verkfærið styður PDF, PNG, JPG, TIFF, BMP og WebP snið.

  2. 2

    Veldu tungumál texta í skjalinu þínu fyrir bestu kunn-greiningunargæði. Fyrir fjöltunga skjöl veldu öll viðeigandi tungumál. OCR-vélin mun greina alla skjalsuppbyggingu, þar á meðal dálka, töflur og fyrirsagnir.

  3. 3

    Smelltu á Draga út texta til að keyra sjónstaf-persónugreiningu á skjalinu þínu. Skoðaðu og afritaðu dreginn texta, eða sæktu hann sem textaskrá. Öll OCR-vinnsla keyrir beint í vafranum þínu með ítarlegum greiningu-reikniritum — skjöl þín eru aldrei hlaðin upp á neinn netþjón, sem tryggir fullkomna einkalægi.

Af hverju að nota OCR-tól okkar?

Skannaðir skjöl, myndfótógraffeiðir og myndtengdir PDF lása verðmætan texta inni í myndum. Þú getur ekki leitað, afritað, breytt eða endurnýtt efnið án þess að breyta því fyrst í vélfram-lesanlegum texta. OCR-tólið okkar leysir þetta með því að greina myndstoðu skjals þíns og draga út hvert orð með mikilli nákvæmni. Það meðhöndlar allt frá einsíðu kvittunum til margra síðna skannaðra samninga og fræðilegra ritgerða — og greinir prentuðan texta á tugum tungumála og varðveitir lesröð flókinnar útlits með mörgum dálkum og töflum.

Vegna þess að allt ferlið keyrir staðbundið í vafranum þínu, fara viðkvæm skjöl þín — löglegir samningar, sjúkraskrár, fjárhagslegar yfirlit — aldrei af tækinu þínu. Engin hleðsla, engin skýjaúrvinnsla og engin aðgangur þriðja aðila. Fyrir einfaldari verkefni eins og að draga texta úr einni mynd eða skjámynd, myndir í texta tól okkar veitir flætt upplifun. Þegar þú hefur dreginn texta út geturðu breytt honum í rétt skjal með breyta texta í PDF, eða breytt upprunalegu PDF beint. Ef þú þarft að vinna með skannuð gögn getur þú dregið út textann hér og síðan notað JSON-CSV breytir til að skipuleggja gögn þín.

Hvað er OCR?

OCR (Optical Character Recognition) er tækni sem breytir myndum af texta — hvort sem frá skönnum, ljósmyndum eða myndtengdum PDF — yfir í vélfram-lesanlega, breytanlega texta. OCR-vélar greina form, mynstur og staðsetningu stafa í mynd til að bera kennsl á bókstafi, tölur og tákn. Nútíma OCR styður hundruð tungumála og getur meðhöndlað margvislega leturgerðir, stærðir og útlit. Það er grunnstæð tækni fyrir skjala-stafrænar, leitunarversanleg PDF-búnaður, sjálfvirka gagnainnsláttar og aðgengi tól sem lesa prentuðan texta hátt.

Algengar spurningar

Hvaða tungumál styður OCR?

Yfir 100 tungumál í gegnum Tesseract.js. Veldu tungumál í fellilistanum eða sameinaðu allt að 3 tungumál fyrir skjöl á mörgum tungumálum.

Hversu nákvæm er textaútdráttarinn?

Skýrar skannanir í hárri upplausn ná yfirleitt 90-98% nákvæmni.

Af hverju er 100 síðna PDF stundum tilbúið á einu augabragði?

Ef PDF-skráin hefur þegar valhæft textalag (innbyggt, ekki skannað) er textinn dreginn út beint í stað þess að keyra OCR. Fyrir skannaðar PDF-skrár án textalags er OCR keyrt á hverri síðu.

Tengd verkfæri