Skip to content
LlamaPDFLlamaPDF
🔍

PDF għal Test (OCR)

Estrawi test minn PDFs skannjati

L-aħħar aġġornament:

L-OCR jiġbed it-test minn immaġini u PDFs. LlamaPDF l-ewwel jiċċekkja jekk il-PDF diġà jkunx fih saff ta' test selettabbli u jikkopjah direttament — mgħaġġel u mingħajr telf. Jekk le (jew għal immaġini), jaqa' fuq Tesseract.js li jaħdem kompletament fil-browser tiegħek, jappoġġja 100+ lingwi b'auto-detection fakultattiva.

Ġib u poża l-fajl tiegħek hawn

jew ikklikkja biex tagħżel

.PDF.JPG.PNG.WEBP

Massimu 50 MB · Ma hemmx bżonn reġistrazzjoni

Il-fajl tiegħek jibqa' fuq l-apparat tiegħek — qatt ma jiġi mgħobbi

Kif testrawi test minn PDF jew immaġni b'OCR

  1. 1

    Ibgħat il-PDF skannjat jew il-fajl ta' immaġni tiegħek billi tġibh fil-kaxxa hawn fuq jew tikklikkja biex tfittex. L-għodda tappoġġja formati PDF, PNG, JPG, TIFF, BMP, u WebP.

  2. 2

    Agħżel il-lingwa tat-test fid-dokument tiegħek għal preċiżjoni ottimali tar-rikonoxximent. Għal dokumenti b'lingwi multipli, agħżel il-lingwi kollha applikabbli. Il-magna OCR tanalizza l-istruttura sħiħa tad-dokument, inklużi kolonni, tabelli, u intestaturi.

  3. 3

    Ikklikkja Extract Text biex tħaddem ir-rikonoxximent ottiku tal-karattri fuq id-dokument tiegħek. Irrevedi u kkopja t-test estratt, jew niżżlu bħala fajl tat-test. L-ipproċessar OCR kollu jsir direttament fil-browser tiegħek bl-użu ta' algoritmi avvanzati ta' rikonoxximent — id-dokumenti tiegħek qatt ma jiġu mgħobbija lil xi server, u dan jiżgura privatezza sħiħa.

Għaliex tuża l-għodda OCR tagħna?

Dokumenti skannjati, paġni fotografati, u PDFs bbażati fuq immaġni jsakkru test prezzjuż ġewwa stampi. Ma tistax tfittex, tikkopja, teditja, jew terġa' tuża dak il-kontenut mingħajr ma tikkonvertih l-ewwel f'test li l-magni jistgħu jaqraw. L-għodda OCR tagħna tissolvi dan billi tanalizza l-istruttura viżwali tad-dokument tiegħek u testrawi kull kelma b'preċiżjoni għolja. Timmaniġġja kollox minn riċevuti ta' paġna waħda sa kuntratti skannjati u karti akkademiċi ta' paġni multipli — tagħraf test stampat f'għexieren ta' lingwi u tippreserva l-ordni tal-qari ta' layouts kumpless inklużi paġni b'kolonni multipli u tabelli.

Minħabba li l-proċess kollu jaħdem lokalment fil-browser tiegħek, id-dokumenti sensittivi tiegħek — kuntratti legali, rekords mediċi, dikjarazzjonijiet finanzjarji — qatt ma jitilqu mill-apparat tiegħek. Ma hemm l-ebda upload, l-ebda pproċessar fis-sħab, u l-ebda aċċess minn terzi — konformità sħiħa mal-GDPR, b'xejn u mingħajr limiti. Għal kompiti aktar sempliċi bħall-estrazzjoni ta' test minn ritratt jew screenshot wieħed, l-għodda image-to-text tagħna tipprovdi esperjenza streamlined. Ladarba jkollok it-test estratt, ikkonvertih f'dokument proprju bil-konvertitur text lejn PDF, jew editja l-PDF oriġinali direttament.

X'inhu OCR?

OCR (Optical Character Recognition) hija teknoloġija li tikkonverti immaġni ta' test — kemm jekk minn dokumenti skannjati, ritratti, jew PDFs bbażati fuq immaġni — f'test editjabbli li l-magni jistgħu jaqraw. Il-magni OCR janalizzaw il-forom, il-patterns, u r-relazzjonijiet spazjali tal-karattri f'immaġni biex jidentifikaw ittri, numri, u simboli. L-OCR modern jappoġġja mijiet ta' lingwi u jista' jimmaniġġja firxa wiesgħa ta' fonts, daqsijiet, u layouts. Hija t-teknoloġija fundamentali warajha d-diġitalizzazzjoni tad-dokumenti, il-ħolqien ta' PDF li jistgħu jintefittxu, id-dħul tad-data awtomattiku, u l-għodod tal-aċċessibbiltà li jaqraw test stampat b'vuċi.

Mistoqsijiet Frekwenti

Liema lingwi jappoġġja OCR?

Aktar minn 100 lingwa permezz ta' Tesseract.js. Agħżel kwalunkwe lingwa mid-dropdown, jew għaqqad sa 3 għal dokumenti multilingwi.

Kemm hija preċiża l-estrazzjoni tat-test?

Skanjes ċari b'riżoluzzjoni għolja ġeneralment jiksbu preċiżjoni ta' 90-98%.

Għaliex xi drabi tagħmel sekonda biex tlesti PDF ta' 100 paġna?

Jekk il-PDF diġà għandu saff ta' test selezzjonabbli (nativ, mhux skannjat), it-test jiġi estratt direttament minflok ma jitmexxa l-OCR. Għal PDFs skannjati mingħajr saff tat-test, OCR sħiħ jitmexxa fuq kull paġna.

Għodod Relatati