Skip to content
LlamaPDFLlamaPDF
🔍

PDF ngadto sa Teksto (OCR)

I-extract ang teksto gikan sa mga na-scan nga PDF

Pinakabag-ong gi-update:

Ang OCR mokuha ug teksto gikan sa mga imahe ug PDF. Ang LlamaPDF unang mosusi kung ang PDF aduna nay mapilian nga text layer ug mokopya niini diretso — paspas ug walay pagkawala. Kung wala (o alang sa mga imahe), mobalik kini sa Tesseract.js nga modagan sa hingpit sulod sa imong browser, nga nagsuporta sa 100+ ka pinulongan nga adunay opsyonal nga auto-detection.

I-drag ug i-drop ang imong file dinhi

o i-click para mapili

.PDF.JPG.PNG.WEBP

Max 50 MB · Walay kinihanglan nga rehistrasyon

Ang imong file nagpabilin sa imong device — wala giupload

Unsaon pag-extract sa teksto gikan sa PDF o imahe gamit ang OCR

  1. 1

    I-upload ang imong scanned PDF o image file pinaagi sa pag-drag o pag-click sa browse. Ang himan nagsuporta sa PDF, PNG, JPG, TIFF, BMP, ug WebP formats.

  2. 2

    Pilia ang pinulongan sa teksto sa imong dokumento para mas tukma ang resulta. Para sa multi-language nga dokumento, pilia ang tanang applicable nga pinulongan. Ang OCR engine mag-analyze sa tibuok istruktura sa dokumento, lakip ang mga column, table, ug header.

  3. 3

    I-click ang 'Extract Text' para ipadagan ang optical character recognition sa imong dokumento. I-review ug kopyaha ang na-extract nga teksto, o i-download isip text file. Tanan giproseso diretso sa imong browser — ang imong mga dokumento dili gyud ma-upload sa bisan unsang server, busa hingpit ang pribasidad.

Nganong gamiton ang OCR tool sa LlamaPDF?

Ang OCR (Optical Character Recognition) usa ka teknolohiya nga nagbabasa ug nag-convert sa teksto gikan sa mga imahe ug scanned nga dokumento ngadto sa ma-edit ug ma-search nga format. Kung naa kay scanned nga kontrata, lumang rekord, resibo, o bisan unsang dokumento nga litrato lang — ang OCR ang solusyon para makuha ang teksto nga dali nimo ma-edit o magamit pag-usab. Ang LlamaPDF OCR tool libre ug walay signup — pag-upload lang sa imong file, pili og pinulongan, ug makuha dayon ang teksto. Nagtrabaho kini sa imong browser, busa ang imong mga sensitibong dokumento dili mogawas sa imong device. Perpekto para sa mga estudyante, propesyonal, negosyante, o bisan kinsa nga kinahanglan mag-digitize og papel nga dokumento. Lami kaayo kining himan para sa mga taga-Pilipinas — dili na kinahanglan pa og mag-install og software, dili na kinahanglan og mahal nga subscription, ug nagdagan sa imong telepono o computer. I-scan ang imong lumang resibo, scan sa medical record, o bisan luma nga sertipiko — makuha dayon ang teksto. Ang among OCR engine nagsuporta og daghang pinulongan ug kaya ang mga dokumento nga adunay komplikadong layout sama sa multi-column text, table, ug mixed na content. Bisan og medyo mabag-o ang imahe, kaya pa gihapon sa system ang pag-recognize sa teksto.

Para sa mas yano nga text extraction gikan sa imahe, sulayi ang image to text tool. Kung gusto nimong i-convert ang PDF ngadto sa imahe antes mag-OCR, gamiton ang PDF to JPG converter una.

Unsa ang OCR?

Ang OCR (Optical Character Recognition) usa ka teknolohiya nga nag-convert sa mga litrato o scanned nga teksto ngadto sa ma-edit ug ma-search nga digital text. Naggamit kini og pattern recognition ug machine learning para mailhan ang mga letra, numero, ug simbolo sa mga imahe. Ang modernong OCR engine kaya ang daghang pinulongan, font, ug layout — gikan sa simpleng printed text hangtod sa komplikadong multi-column na dokumento.

Mga Kanunay nga Gipangutana

Unsang mga pinulongan ang gisuportahan sa OCR?

Sobra sa 100 ka pinulongan pinaagi sa Tesseract.js. Pilia ang bisan unsang pinulongan gikan sa dropdown, o isagol hangtod 3 para sa mixed-language documents.

Unsa ka tumpak ang pag-extract sa teksto?

Ang klaro, taas nga resolusyon nga mga scan sagad nakakab-ot og 90–98% nga katumpakan.

Nganong usahay nahuman kini sa usa ka segundo para sa 100-pahinang PDF?

Kung ang PDF adunay na selectable text layer (native, dili scanned), direkta ang pag-extract sa teksto imbes mag-run og OCR. Para sa mga scanned PDF nga walay text layer, mag-run og full OCR sa matag pahina.

Mga Kaugnay nga Himan