Skip to content
LlamaPDFLlamaPDF
🔍

PDF go Téacs (OCR)

Sliocht téacs ó PDF scanáilte

An nuashonrú is déanaí:

Baineann OCR téacs as íomhánna agus PDFanna. Seiceálann LlamaPDF ar dtús an bhfuil ciseal téacs inroghnaithe ag an PDF cheana féin agus cóipeálann sé go díreach é — tapa agus gan chailliúint. Mura bhfuil (nó d'íomhánna), titeann sé ar ais ar Tesseract.js ag rith go hiomlán i do bhrabhsálaí, ag tacú le 100+ teangacha le braiteadh uathoibríoch roghnach.

Tarraing agus scaoil do chomhad anseo

cliceáil chun roghnú

.PDF.JPG.PNG.WEBP

Uasmhéid 50 MB · Ní gá clárú

Fanann do chomhad ar do ghléas — ní uaslódáiltear é riamh

Conas téacs a bhaint ó PDF nó ó íomhá le OCR

  1. 1

    Uaslódáil do PDF scannaithe nó do chomhad íomhá trína tharraingt isteach sa bhosca thuas nó trí chliceáil chun brabhsáil. Tacaíonn an uirlis do PDFs, PNG, JPG, TIFF, BMP, agus fothogair WebP.

  2. 2

    Roghnaigh teanga an téacs i do dhocúmainta le haghaidh cruinneas aithinte is fearr. Le haghaidh doiciméad il-theangach, roghnaigh teangacha ábhartha. Anailísíonn an inneall OCR struchtúr an doiciméid ar fad, lena n-áirítean colúin, tábla, agus ceanntásca.

  3. 3

    Cliceáil Bain Téacs agus ritheann an fhíchéir charachtair optúil ar do dhocúmainta. Athbhreithnigh agus greamaigh an téacs bainte, nó íoslódáil é mar chomhad téacs. Ritheann gach próiseas OCR go díreach i do bhrabhsálaí ag baint úsáide as halgartaim aithinte ardmheáin — ní uaslódáiltear do dhocúmainta chuig aon fhreastalaí, ag cinntiú príobháideacht iomlán.

Cén fáth ár n-uirlis OCR a úsáid?

Dhúnann doiciméad scannaithe, leathanaigh fhótógrafáilte, agus PDFs bunaithe ar íomhá téacs luachmhar laistigh de phictiúir. Ní féidir leat cuardach a dhéanamh, cóip a dhéanamh, a chur in eagar, ná an t-ábhar sin a athúsáid gan a thiontú ar dtús go téacs geal-inleite. Réitíonn ár n-uirlis OCR seo trí anailís a dhéanamh ar struchtúr amhairc do dhocúmainta agus gach focal a bhaint le beachtas ard. Láimhseálann sé gach rud ó bhilléis leathanaigh amháin go conarthaí scannaithe ar leataibh iolracha agus páipéir acadúla — ag aithint téacs priontáilte ar fud na bpais theangacha agus ag caomhnú ord léitheoireachta de leagan amach casta lena n-áirítean páipéir il-cholúin agus tábla.

Toisc go ritheann an próiseas ar fad go háitiúil i do bhrabhsálaí, ní fhágann do dhocúmainta mothúcháin — conarthaí dlí, taifid leighis, ráitis airgeadais — do ghléas riamh. Níl aon uaslódáil, níl aon phróiseas i gclúd, agus níl aon rochtain ag páirtithe tríú. Le haghaidh tascanna níos simplí ar nós téacs a bhaint ó ghrianghraf amháin nó scréannghriangraf, uirlis dhéanann pictiúr-go-téacs a chur ar fáil. Nuair a bhíonn do théacs bainte agat, tiontaigh é i ndoiciméad cearta ag baint úsáide as an tiontóir téacs go PDF, nó eagarthóir PDF go díreach. Má bhíonn gá agat tábla scannaithe a obair, bain téacs anseo agus ansin úsáid an thiontóir JSON-CSV chun do shonraí a struchtúrú.

Cad é OCR?

Is teicneolaíocht é OCR (Aithint Carachtar Optúil) a thiontaíonn íomhánna téacs — bíodh siad ó dhoiciméid scannaithe, grianghraif nó PDFanna bunaithe ar íomhánna — i dtéacs inléite agus in-eagraithe ag meaisín. Anailísíonn inneall OCR cruthanna, patrúin agus caidrimh spásúla carachtar in íomhá chun litreacha, uimhreacha agus siombailí a aithint. Tacaíonn OCR nua-aimseartha le céadta teanga agus is féidir leis raon leathan clónna, méideanna agus leaganacha a láimhseáil. Is í an teicneolaíocht bhunúsach í taobh thiar de dhigitiú doiciméad, cruthú PDF inchuardaithe, iontráil sonraí uathoibrithe agus uirlisí inrochtaineachta a léann téacs priontáilte os ard.

Ceisteanna Coitianta

Cé na teangacha a dtacaíonn OCR leo?

Breis is 100 teanga trí Tesseract.js. Roghnaigh aon teanga ón liosta anuas, nó cuir suas le 3 cinn le chéile do cháipéisí le teangacha measctha.

Cé chomh cruinn agus atá an eastóscadh téacs?

Bíonn scananna soiléire ardtaifigh ag baineacht 90-98% cruinnis de ghnáth.

Cén fáth a gcríochnaíonn sé uaireanta i soicind le PDF 100 leathanach?

Má tá ciseal téacs inroghnaithe ag an PDF cheana féin (dúchasach, ní scanáilte), eastósctar an téacs go díreach in ionad OCR a rith. Le PDFanna scanáilte gan ciseal téacs, ritear OCR iomlán ar gach leathanach.

Uirlisí Gaolmhara