Skip to content
LlamaPDFLlamaPDF
🔍

PDF Testura (OCR)

Atera testua eskaneatutako PDF-etatik

Azken eguneraketa:

OCR-ak testua ateratzen du irudietatik eta PDFetatik. LlamaPDF-k lehenik egiaztatzen du PDFak dagoeneko hautagarri den testu-geruza bat duen eta zuzenean kopiatzen du — azkarra eta galerarik gabea. Ez badago (edo irudien kasuan), Tesseract.js erabiltzen du oso-osorik zure nabigatzailean exekutatuta, 100+ hizkuntza onartuz hautazko detekzio automatikoarekin.

Arrastatu eta jaregin fitxategia hemen

edo egin klik hautatzeko

.PDF.JPG.PNG.WEBP

50 MB gehienez · Erregistrorik behar ez

Zure fitxategia zure gailuan geratzen da — ez da inoiz igotzen

Nola atera testua PDF edo irudi batetik OCR bidez

  1. 1

    Igo zure eskaneatutako PDF edo irudi-fitxategia goiko kutxara arrastatu eta jareginez edo klik eginez fitxategiak ikusteko. Tresnak PDF, PNG, JPG, TIFF, BMP eta WebP formatuak onartzen ditu.

  2. 2

    Hautatu zure dokumentuko testuaren hizkuntza ezagutze-zehaztasun onena lortzeko. Hizkuntza anitzeko dokumentuetarako, hautatu aplikagarri diren hizkuntza guztiak. OCR motorrak dokumentuaren egitura osoa aztertuko du, zutabeak, taulak eta izenburuak barne.

  3. 3

    Egin klik Atera Testua zure dokumentuan ikuspegi optikoko ezagutza exekutatzeko. Berrikusi eta kopiatu ateratako testua, edo deskargatu testu-fitxategi gisa. OCR prozesatzea guztia zure nabigatzailean gertatzen da zuzenean ezagutze-algoritmo aurreratuak erabiliz — zure dokumentuak ez dira inoiz zerbitzarira igotzen, pribatutasun osoa bermatuz.

Zergatik erabili gure OCR tresna?

Eskaneatu dokumentuek, argazkietan hartutako orrialdeek eta irudi-oinarritutako PDF-ek testu baliotsua irudien barruan blokeatu du. Eduki hori bilatu, kopiatu, editatu edo berrerabili ezin duzu lehenik testu makina-irakurgarri bihurtu gabe. Gure OCR tresnak dokumentuaren egitura bisuala aztertuz eta hitz guztiak zehaztasun handiz aterata arazo hau konpontzen du. Ordezko-hartzeke guztietatik kudeatzen du — orri bakarreko errezibuetatik hainbat orriko eskaneatutako kontratuetara eta akademia-paperetara — hizkuntza askotako testu inprimatua ezagutuz eta zutabe anitzeko orriak eta taulak barne duten diseinu konplexuen irakurketa-ordena gordetuz.

Prozesu osoa lokalean zure nabigatzailean exekutatzen denez, zure dokumentu sentikorrak — kontratu juridikoak, historia medikoak, finantza-txostenak — ez dira inoiz zure gailutik irteten. Ez dago igotzerik, hodeiaren prozesatzerik, eta hirugarrenen sarbiderik. Argazki edo pantaila-argazki bakarreko testua ateratzeko ataza sinpleagoetarako, gure irudia testura tresnak esperientzia arinagoa eskaintzen du. Ateratako testua lortu ondoren, dokumentu egoki batean bihurtu testua PDF-ra bihurgailuarekin, edo editatu jatorrizko PDF-a zuzenean. Eskaneatutako taulak landu behar badituzu, atera testua hemen eta erabili JSON-CSV bihurgailua zure datuak egituratzen laguntzeko.

Zer da OCR?

OCR (Optical Character Recognition, Ikuspegi Optikoko Ezagutza) testuaren irudiak — eskaneatutako dokumentuetatik, argazkietatik edo irudi-oinarritutako PDF-etatik — testu makina-irakurgarri eta editagarri bihurtzen dituen teknologia da. OCR motorrek irudi bateko karaktereen formak, ereduak eta espazio-erlazioak aztertzen dituzte letrak, zenbakiak eta sinboloak identifikatzeko. OCR modernoak ehunka hizkuntza onartzen ditu eta letra-tipo, tamaina eta diseinu ugariak kudea ditzake. Dokumentuak digitalizatzeko, PDF bilagarriak sortzeko, datuak automatikoki sartzeko eta testu inprimatua ozenki irakurtzen duten irisgarritasun-tresnetarako oinarrizko teknologia da.

Maiz Egiten Diren Galderak

Zein hizkuntza onartzen ditu OCR-k?

100 hizkuntza baino gehiago Tesseract.js bidez. Aukeratu edozein hizkuntza zabalgarrian edo konbinatu 3 arte nahasitako dokumentuentzat.

Zein zehatza da testu-erauzketa?

Eskaneatu garbi eta bereizmen altukoak normalean %90-98ko zehaztasuna lortzen dute.

Zergatik bukatzen da batzuetan segundo batean 100 orriko PDF batean?

PDF-ak dagoeneko testu-geruza hautagarria badu (jatorrizkoa, ez eskaneatua), testua zuzenean ateratzen da OCR exekutatu beharrean. Testu-geruzarik gabeko PDF eskaneatuetan, OCR osoa orri bakoitzari aplikatzen zaio.

Erlazionatutako Tresnak