Skip to content
LlamaPDFLlamaPDF
🔍

PDF zuwa Rubutu (OCR)

Fitar da rubutu daga PDF da aka duba

Sabunta na ƙarshe:

OCR yana cirewa rubutu daga hotuna da PDFs. LlamaPDF na fara duba ko PDF ɗin ya riga ya ƙunshi launi na rubutu mai zaɓa kuma ya kwafa shi kai tsaye — mai sauri kuma ba tare da asara ba. Idan ba haka ba (ko don hotuna), yana faɗuwa zuwa Tesseract.js da ke gudana gaba ɗaya a cikin burauzar ku, yana goyan bayan harsuna 100+ tare da gano-kai zaɓi.

Ja & sakar fayilinka nan

ko danna don zabi

.PDF.JPG.PNG.WEBP

Max 50 MB · Ba a bukata rajista

Fayilinka yana kan na'urarka — ba a loda shi

Yadda Ake Fitar da Rubutu Daga PDF ko Hoto da OCR

  1. 1

    Loda PDF da aka scan ko fayil na hoto (PDF, PNG, JPG, TIFF, BMP, WebP ana goyan bayansu).

  2. 2

    Zaɓi harshen rubutun da ke cikin takarda don ingantaccen ganowa. Don takardu masu harsunan da yawa, zaɓi duk waɗanda suka dace. Injin OCR yana bincika duk takarda gami da ginshiƙai, teburi, taken.

  3. 3

    Danna Fitar da Rubutu don aiwatar da OCR a kan takarda. Duba kuma kwafa rubutun da aka fitar, ko sauke shi a matsayin fayil na rubutu. Duk sarrafa OCR yana gudana a browser — takardu ba a tura zuwa wani sabar ba.

Me Ya Sa Za Ka Yi Amfani da Kayan Aikinmu na OCR?

Takardu da aka scan, shafuka da aka ɗauka da kyamara, da PDFs masu hotunan rubutu suna kulle rubutu mai ƙima a cikin hotuna. Ba za ka iya bincika, kwafa, gyara, ko sake amfani da wannan abun ciki ba sai ka fara canza shi zuwa rubutu da na'ura za ta iya karanta. Kayan aikinmu na OCR yana bincika tsarin gani na takarda kuma yana fitar da kowane kalma da daidaito mai girma. Yana aiwatar da rasitin shafi guda ɗaya zuwa kwangila da aka scan da shafuka da yawa — yana gane rubutu da aka buga a harsunan da yawa, yana kiyaye tsarin karatu na tsarurruka masu rikitarwa gami da shafuka masu ginshiƙai da yawa da teburi.

Duk tsari yana gudana a cikin na'ura ɗinka — takardu masu muhimmanci (kwangila na shari'a, rikodin likitanci, bayanan kuɗi) ba su taba barin na'ura ba. Babu loda, babu sarrafa cloud, babu damar bangaren uku. Don ayyuka masu sauƙi kamar fitar da rubutu daga hoto guda ɗaya: kayan aikin hoto zuwa rubutu. Da zarar kana da rubutun da aka fitar, canza shi da mai canza rubutu zuwa PDF, ko gyara ainihin PDF kai tsaye. Don teburi da aka scan: mai canza JSON-CSV don tsara bayanan.

Menene OCR?

OCR (Optical Character Recognition) fasaha ce da ke canza hotuna na rubutu — daga takardu da aka scan, hotuna, ko PDFs masu hotunan rubutu — zuwa rubutu da ake iya gyara da na'ura za ta iya karanta. Injunan OCR suna bincika siffofin, tsarurruka, da dangantakar sararin haruffa a cikin hoto don gano haruffa, lambobi, da alamomi. OCR na zamani yana goyan bayan harsunan da yawa kuma yana iya aiwatar da jerin fonts, girma, da tsarurruka masu yawa. Fasahar tushe ce a bayan digitizing takardun bayanai, ƙirƙirar PDF da ake iya bincike shi, shigar bayanan kai tsaye, da kayan aikin samun damar shiga.

Tambayoyi da Ake Yawan Yi

Wane harsuna OCR yana goyan bayan su?

Fiye da harsuna 100 ta hanyar Tesseract.js. Zaɓi kowane harshe daga jerin, ko hada har 3 don takardu masu harsuna gauraye.

Nawa daidaito ne fitar da rubutu ke da shi?

Dubawa masu sarari da ƙuduri mai girma gabaɗaya suna cimma daidaito 90–98%.

Me ya sa wani lokaci yana ƙare a cikin daƙiƙa ɗaya ga PDF mai shafi 100?

Idan PDF ya riga ya kasance da yanayin rubutu mai zaɓi (na asali, ba a duba ba), ana fitar da rubutu kai tsaye maimakon gudanar da OCR. Ga PDF da aka duba marasa yanayin rubutu, ana gudanar da cikakken OCR a kan kowane shafi.

Kayan Aiki Masu Alaƙa