PDF Testura (OCR)
Atera testua eskaneatutako PDF-etatik
Azken eguneraketa:OCR-ak testua ateratzen du irudietatik eta PDFetatik. LlamaPDF-k lehenik egiaztatzen du PDFak dagoeneko hautagarri den testu-geruza bat duen eta zuzenean kopiatzen du — azkarra eta galerarik gabea. Ez badago (edo irudien kasuan), Tesseract.js erabiltzen du oso-osorik zure nabigatzailean exekutatuta, 100+ hizkuntza onartuz hautazko detekzio automatikoarekin.
Arrastatu eta jaregin fitxategia hemen
edo egin klik hautatzeko
50 MB gehienez · Erregistrorik behar ez
Zure fitxategia zure gailuan geratzen da — ez da inoiz igotzen
Nola atera testua PDF edo irudi batetik OCR bidez
- 1
Igo zure eskaneatutako PDF edo irudi-fitxategia goiko kutxara arrastatu eta jareginez edo klik eginez fitxategiak ikusteko. Tresnak PDF, PNG, JPG, TIFF, BMP eta WebP formatuak onartzen ditu.
- 2
Hautatu zure dokumentuko testuaren hizkuntza ezagutze-zehaztasun onena lortzeko. Hizkuntza anitzeko dokumentuetarako, hautatu aplikagarri diren hizkuntza guztiak. OCR motorrak dokumentuaren egitura osoa aztertuko du, zutabeak, taulak eta izenburuak barne.
- 3
Egin klik Atera Testua zure dokumentuan ikuspegi optikoko ezagutza exekutatzeko. Berrikusi eta kopiatu ateratako testua, edo deskargatu testu-fitxategi gisa. OCR prozesatzea guztia zure nabigatzailean gertatzen da zuzenean ezagutze-algoritmo aurreratuak erabiliz — zure dokumentuak ez dira inoiz zerbitzarira igotzen, pribatutasun osoa bermatuz.
Zergatik erabili gure OCR tresna?
Eskaneatu dokumentuek, argazkietan hartutako orrialdeek eta irudi-oinarritutako PDF-ek testu baliotsua irudien barruan blokeatu du. Eduki hori bilatu, kopiatu, editatu edo berrerabili ezin duzu lehenik testu makina-irakurgarri bihurtu gabe. Gure OCR tresnak dokumentuaren egitura bisuala aztertuz eta hitz guztiak zehaztasun handiz aterata arazo hau konpontzen du. Ordezko-hartzeke guztietatik kudeatzen du — orri bakarreko errezibuetatik hainbat orriko eskaneatutako kontratuetara eta akademia-paperetara — hizkuntza askotako testu inprimatua ezagutuz eta zutabe anitzeko orriak eta taulak barne duten diseinu konplexuen irakurketa-ordena gordetuz.
Prozesu osoa lokalean zure nabigatzailean exekutatzen denez, zure dokumentu sentikorrak — kontratu juridikoak, historia medikoak, finantza-txostenak — ez dira inoiz zure gailutik irteten. Ez dago igotzerik, hodeiaren prozesatzerik, eta hirugarrenen sarbiderik. Argazki edo pantaila-argazki bakarreko testua ateratzeko ataza sinpleagoetarako, gure irudia testura tresnak esperientzia arinagoa eskaintzen du. Ateratako testua lortu ondoren, dokumentu egoki batean bihurtu testua PDF-ra bihurgailuarekin, edo editatu jatorrizko PDF-a zuzenean. Eskaneatutako taulak landu behar badituzu, atera testua hemen eta erabili JSON-CSV bihurgailua zure datuak egituratzen laguntzeko.
Zer da OCR?
OCR (Optical Character Recognition, Ikuspegi Optikoko Ezagutza) testuaren irudiak — eskaneatutako dokumentuetatik, argazkietatik edo irudi-oinarritutako PDF-etatik — testu makina-irakurgarri eta editagarri bihurtzen dituen teknologia da. OCR motorrek irudi bateko karaktereen formak, ereduak eta espazio-erlazioak aztertzen dituzte letrak, zenbakiak eta sinboloak identifikatzeko. OCR modernoak ehunka hizkuntza onartzen ditu eta letra-tipo, tamaina eta diseinu ugariak kudea ditzake. Dokumentuak digitalizatzeko, PDF bilagarriak sortzeko, datuak automatikoki sartzeko eta testu inprimatua ozenki irakurtzen duten irisgarritasun-tresnetarako oinarrizko teknologia da.