Skip to content
LlamaPDFLlamaPDF
🔍

PDF sí Ọ̀rọ̀ (OCR)

Yọ ọ̀rọ̀ jáde látọwọ́ àwọn PDF tí a ṣàwárí

Imudojuiwọn to kẹhin:

OCR ń mú ọ̀rọ̀ jáde láti àwọn àwòrán àti PDFs. LlamaPDF kọ́kọ́ ṣàyẹ̀wò bóyá PDF náà ti ní ìpele ọ̀rọ̀ yíyàn ó sì kó o tààrà — kíá àti láìsí ìpàdánù. Bí kò bá rí bẹ́ẹ̀ (tàbí fún àwọn àwòrán), ó ń yípadà sí Tesseract.js tó ń ṣiṣẹ́ pátápátá ní ẹ̀rọ aṣàwákiri rẹ, ó ń ṣètìlẹ́yìn fún èdè 100+ pẹ̀lú àṣàyàn ìdánimọ̀-ara-ẹni.

Fà & sọ fáìlì rẹ sí ibi

tàbí tẹ̀ láti yan

.PDF.JPG.PNG.WEBP

Tó jù 50 MB · Kò nílò ìforúkọsílẹ̀

Fáìlì rẹ wà lórí ẹ̀rọ rẹ — kò tíì gbé sórí ìntánẹ́ẹ̀tì rárá

Bí a ṣe ń yọ ọrọ̀ kúrò nínú àwòrán pẹ̀lú OCR

  1. 1

    Gbe àwòrán rẹ tàbí PDF tó dá lórí àwòrán sórí — a gba àwọn fáìlì ojú ìwé kan ṣoṣo àti ti ọ̀pọ̀ ojú ìwé.

  2. 2

    Yàn èdè ìwé — irinṣẹ́ náà máa ń mọ ọrọ̀ ní àwọn èdè ọ̀pọ̀ràn.

  3. 3

    Gba ọrọ̀ tó yọ kúrò — tí ó ṣeéṣe wá, tí ó ṣeéṣe ṣàtúnṣe, tí ó ṣeéṣe daakọ. Gbogbo rẹ̀ ṣẹlẹ̀ nínú browser rẹ — àwọn ìwé ìpamọ̀ rẹ kò fi ẹ̀rọ rẹ sílẹ̀ rárá.

Kí nìdí tí LlamaPDF fi dára fún OCR?

Àwọn ìwé tó ti scanned, àwọn ojú ìwé fọto, àti àwọn PDF tó dá lórí àwòrán ń fi ọrọ̀ ìyebíye pamọ́ nínú àwọn àwòrán. O kò lè wá, daakọ, ṣàtúnṣe, tàbí tún lò àkóónú yẹn láìsí yípadà rẹ̀ sí ọrọ̀ tí ẹ̀rọ lè kà. Ẹ̀rọ OCR wa ń ṣàyẹ̀wò ìtòlẹ́sẹẹsẹ ní ojú àti yọ ọ̀rọ̀ kọọkan pẹ̀lú ìdáràtán gíga. Ó bá pẹ̀lú àwọn ìsanwó ojú ìwé kan ṣoṣo àti àwọn àdéhùn tó ní ọ̀pọ̀ ojú ìwé tó ti scanned — ó máa ń mọ ọrọ̀ ní àwọn èdè ọ̀pọ̀ràn, ó sì ń pa ìtòlẹ́sẹẹsẹ kíkà àwọn ìpínpín tó kóḿpùtẹ̀lẹ̀x bí àwọn ojú ìwé ọ̀pọ̀-àwùjọ àti àwọn tábìlì mọ́.

Gbogbo ìlànà náà ṣiṣẹ́ ní ìbílẹ̀ — àwọn ìwé ìpamọ̀ tó ní àṣírí kò fi ẹ̀rọ rẹ sílẹ̀ rárá. Kò sí upload, kò sí iṣẹ́ cloud, kò sí ọ̀nà àbáwọlé ẹni-kẹta. Fún àwọn iṣẹ́ tó rọrùn láti fọto kan ṣoṣo: lò ẹ̀rọ àwòrán-sí-ọrọ̀. Lẹ́hìn tí o bá ti yọ ọrọ̀ kúrò: lò ẹ̀rọ ọrọ̀-sí-PDF tàbí ṣàtúnṣe PDF àkọ́kọ́. Fún àwọn tábìlì tó scanned: lò ẹ̀rọ JSON-CSV láti ṣètò data.

Kí ni OCR?

OCR (Optical Character Recognition) jẹ́ ìmọ̀-ẹ̀rọ tó máa ń yí àwọn àwòrán ọrọ̀ — láti àwọn ìwé tó scanned, àwọn fọto, tàbí àwọn PDF tó dá lórí àwòrán — padà sí ọrọ̀ tí ẹ̀rọ lè kà tó ṣeéṣe ṣàtúnṣe. Àwọn ẹ̀rọ OCR ń ṣàyẹ̀wò àwọn ìlànà, àwọn àpẹẹrẹ, àti àwọn ìbáṣepọ̀ àyè àwọn àpèjúwé láti dá àwọn lẹ́tà, àwọn nọ́mbà, àti àwọn àmì mọ̀. OCR òde-òní ṣe àtìlẹ́yìn fún àwọn èdè ọgọ́rùn-ún àti bá pẹ̀lú ọ̀pọ̀ oríṣi àwọn írúntúntún, ìwọn, àti ìpínpín. Ó jẹ́ ìmọ̀-ẹ̀rọ ìpìlẹ̀ tó wà lẹ́yìn ìtúsọ̀ àwọn ìwé, ṣíṣẹ̀dá PDF tó ṣeéṣe wá, àtọpasẹ̀ data aládáàáṣiṣẹ́, àti àwọn irinṣẹ́ ìrọba fún àwọn aláìlera.

Àwọn Ìbéèrè Tí A Máa Ń Béèrè

Àwọn èdè wo ni OCR ń ṣàtìlẹ́yìn fún?

Ju èdè 100 lọ nípasẹ̀ Tesseract.js. Yan èdè eyíkéyìí láti inú àkójọ, tàbí dapọ̀ tó mẹ́ta fún àwọn ìwé tí wọ́n ní èdè àjọsọpọ̀.

Báwo ni ìyọ ọ̀rọ̀ jáde ṣe péye tó?

Àwọn ìwé tó mọ́, tó ní ìgbòkègbodò gíga máa ń ní ìpéye 90–98% ní gbogbogbòò.

Kí ni ìdí tí ó fi máa ń parí lásán-kí-ó ní sìkíìtù kan fún PDF tó ní ojú-ewé 100?

Tí PDF bá ti ní ìpele ọ̀rọ̀ tí ó ṣeé yan (àdámọ́, kìí ṣe tí a ṣàwárí), a máa yọ ọ̀rọ̀ jáde tààràtà dípò kí á ṣe OCR. Fún àwọn PDF tí a ṣàwárí tí wọn kò ní ìpele ọ̀rọ̀, OCR kíkún máa ṣiṣẹ́ lórí ojú-ewé kọ̀ọ̀kan.

Àwọn Irinṣẹ́ Tó Jọra