Skip to content
LlamaPDFLlamaPDF
🔍

PDF na Teks (OCR)

Onttrek teks uit geskandeerde PDF's

Laaste opdatering:

OCR onttrek teks uit beelde en PDF's. LlamaPDF kontroleer eers of die PDF reeds 'n kiesbare tekslaag bevat en kopieer dit direk — vinnig en verlies-vry. Indien nie (of vir beelde), val dit terug op Tesseract.js wat heeltemal in jou blaaier loop, en ondersteun 100+ tale met opsionele outomatiese opsporing.

Sleep en los jou lêer hier

of klik om te kies

.PDF.JPG.PNG.WEBP

Maks 50 MB · Geen registrasie nodig

Jou lêer bly op jou toestel — nooit opgelaai nie

Hoe om teks uit 'n PDF of prent met OCR te onttrek

  1. 1

    Laai die geskandeerde PDF of prentlêer op (PDF, PNG, JPG, TIFF, BMP, WebP).

  2. 2

    Kies die taal van die teks vir optimale akkuraatheid. Vir meertaaldokumente, kies al die toepaslike tale. Die OCR-enjin ontleed die volledige dokumentstruktuur, insluitend kolomme, tabelle en opskrifte.

  3. 3

    Klik op Onttrek Teks. Hersien en kopieer die onttrekde teks, of laai dit as 'n tekslêer af. Alle OCR-verwerking geskied in die blaaier — dokumente word nooit opgelaai nie.

Waarom ons OCR-instrument gebruik?

Geskandeerde dokumente, gefotografeerde bladsye en prentgebaseerde PDF's sluit teks vas in prente. Jy kan dit nie soek, kopieer, redigeer of hergebruik nie sonder om dit na masienleesbare teks om te skakel. Ons instrument ontleed die visuele struktuur en onttrek elke woord met hoë akkuraatheid — van enkelbladsy-kwitansies tot meerbladsy-geskandeerde kontrakte, meerkolomme bladsye en tabelle, in tientalle tale.

Die hele proses verloop plaaslik — sensitiewe dokumente soos regskontraktes, mediese rekords en finansiële state verlaat nooit jou toestel nie. Gebruik ons prent-na-teks-instrument vir eenvoudiger take. Daarna kan jy die teks na PDF omskep met die teks-na-PDF-omskakelaar, die oorspronklike PDF redigeer, of JSON-CSV-omskakelaar gebruik vir geskandeerde tabelle.

Wat is OCR?

OCR (Optical Character Recognition) skakel prente van teks — geskandeerde dokumente, foto's, prentgebaseerde PDF's — om na masienleesbare, redigeerbare teks. OCR-enjins ontleed die vorms, patrone en ruimtelike verhoudings van karakters om letters, syfers en simbole te identifiseer. Dit ondersteun honderde tale en is die grondleggende tegnologie agter dokumentdigitalisering, deursoekbare PDF-skepping, geoutomatiseerde data-invoer en toeganklikheidsinstrumente.

Gereelde Vrae

Watter tale ondersteun OCR?

Meer as 100 tale via Tesseract.js. Kies enige taal uit die keuselys, of kombineer tot 3 vir dokumente in gemengde tale.

Hoe akkuraat is die teksontrekking?

Duidelike, hoëresolusie-skanderings behaal tipies 90–98% akkuraatheid.

Hoekom voltooi dit soms binne 'n sekonde vir 'n 100-bladsy-PDF?

As die PDF reeds 'n kiesbare tekslaag het (oorspronklik, nie geskandeer nie), word die teks direk onttrek in plaas van OCR uit te voer. Vir geskandeerde PDF's sonder 'n tekslaag loop volle OCR op elke bladsy.

Verwante Hulpmiddels