Skip to content
LlamaPDFLlamaPDF
🔍

PDF ରୁ ଟେକ୍ସଟ (OCR)

ସ୍କାନ ହୋଇଥିବା PDF ରୁ ଟେକ୍ସଟ ଉଦ୍ଧାର

ଶେଷ ଅଦ୍ୟତନ:

OCR ଚିତ୍ର ଏବଂ PDFରୁ ପାଠ୍ୟ ବାହାର କରେ। LlamaPDF ପ୍ରଥମେ ଯାଞ୍ଚ କରେ ଯେ PDFରେ ପୂର୍ବରୁ ଚୟନଯୋଗ୍ୟ ପାଠ୍ୟ ସ୍ତର ଅଛି କି ନାହିଁ ଏବଂ ତାହାକୁ ସିଧାସଳଖ କପି କରେ — ଶୀଘ୍ର ଏବଂ ହାନିହୀନ। ଯଦି ନାହିଁ (କିମ୍ବା ଚିତ୍ର ପାଇଁ), ଏହା ସମ୍ପୂର୍ଣ୍ଣ ଆପଣଙ୍କ ବ୍ରାଉଜରରେ ଚାଲୁଥିବା Tesseract.js କୁ ଫେରିଯାଏ, ଯାହା ବୈକଳ୍ପିକ ସ୍ୱୟଂ-ଚିହ୍ନଟ ସହିତ 100+ ଭାଷା ସମର୍ଥନ କରେ।

ଆପଣଙ୍କ ଫାଇଲ ଏଠାରେ ଟାଣି ଏବଂ ଛାଡନ୍ତୁ

କିମ୍ବା ବାଛିବା ପାଇଁ କ୍ଲିକ୍ କରନ୍ତୁ

.PDF.JPG.PNG.WEBP

ସର୍ବାଧିକ 50 MB · ପଞ୍ଜୀକରଣ ଆବଶ୍ୟକ ନାହିଁ

ଆପଣଙ୍କ ଫାଇଲ ଆପଣଙ୍କ ଡିଭାଇସରେ ରହେ — କେବେ ଅପଲୋଡ ହୁଏ ନାହିଁ

OCR ସଙ୍ଗେ PDF କିମ୍ବା ଇମେଜ୍ ଠାରୁ ଟେକ୍ସଟ୍ ଆବଷ୍କାର କିଭାବେ କରିବେ

  1. 1

    ଉପରୋକ୍ତ ବାକ୍ସରେ ଆପଣଙ୍କ ସ୍କ୍ୟାନ୍ ପ୍ରାଧିକାର PDF କିମ୍ବା ଇମେଜ୍ ଫାଇଲ୍ ଅପଲୋଡ୍ କରନ୍ତୁ କିମ୍ବା ବ୍ରାଉଜ୍ କରୁନ୍ତୁ। ଟୁଲ୍ PDF, PNG, JPG, TIFF, BMP, ଏବଂ WebP ଫର୍ମାଟ୍ ସମର୍ଥନ କରେ।

  2. 2

    ଆପଣଙ୍କ ଡକ୍ୟୁମେଣ୍ଟରେ ଟେକ୍ସଟ୍ ଭାଷା ସର୍ବୋତ୍ତମ ସ୍ବୀକୃତି ନିଯୁକ୍ତିର ଜନ୍ୟ ନିର୍ବାଚନ କରନ୍ତୁ। ବহୁ-ଭାଷା ଡକ୍ୟୁମେଣ୍ଟ ଜନ୍ୟ, ସମସ୍ତ ପ୍ରତିନିଧିତ୍ୱକାରୀ ଭାଷା ନିର୍ବାଚନ କରନ୍ତୁ। OCR ଇଞ୍ଜିନ୍ ସମଗ୍ର ଡକ୍ୟୁମେଣ୍ଟ ଗଠନ ବିଶ୍ଳେଷଣ କରିବେ, ସ୍ତମ୍ଭ, ଟେବୁଲ୍, ଏବଂ ଶିରୋଖ୍ନା ସହିତ।

  3. 3

    ଆପଣଙ୍କ ଡକ୍ୟୁମେଣ୍ଟରେ ଅପ୍ଟିକାଲ୍ ଅକ୍ଷର ସ୍ଵୀକୃତି ଚଲାଇବାକୁ ଟେକ୍ସଟ୍ ଆବଷ୍କାର କରନ୍ତୁ। ଆବଷ୍କୃତ ଟେକ୍ସଟ୍ ବିଶ୍ଳେଷଣ ଏବଂ କପି କରନ୍ତୁ, କିମ୍ବା ଏକ ଟେକ୍ସଟ୍ ଫାଇଲ୍ ଭାବେ ଡାଉନଲୋଡ୍ କରନ୍ତୁ। ସମସ୍ତ OCR ପ୍ରକ୍ରିୟାକରଣ ସିଧାସଳଖ ଆପଣଙ୍କ ବ୍ରାଉଜ୍ରେ ଚଲେ ଅଗ୍ରଦୂତ ସ୍ବୀକୃତି ଆଲଗୋରିଦମ ବ୍ୟବହାର କରି — ଆପଣଙ୍କ ଡକ୍ୟୁମେଣ୍ଟ କୌଣସି ସର୍ଭରକୁ ଅପଲୋଡ୍ କରାଯାଏ ନାହିଁ, ସମ୍ପୂର୍ଣ୍ଣ ଗୋପନୀୟତା ନିଶ୍ଚିତ କରିବେ।

ଆମର OCR ଟୁଲ୍ ବ୍ୟବହାର କାହିଁକି?

ସ୍କ୍ୟାନ୍ ଦଲିଲ୍, ଫଟୋଗ୍ରାଫ୍ ପୃଷ୍ଠା, ଏବଂ ଇମେଜ-ଆଧାରିତ PDF ମୂଲ୍ୟବାନ ଟେକ୍ସଟ୍ ଚିତ୍ରଗୁଡିରେ ଲକ୍ କରେ। ଆପଣ ସେହି ବିଷୟବସ୍ତୁ ଖୋଜେ, କପି, ସଂଶୋଧନ, କିମ୍ବା ପୁନର୍ବ୍ୟବହାର କରିପାରିବେ ନାହିଁ ସୁଚିଂଟ୍ ପ୍ରଥମେ ମେସିନ-ପଠନୀୟ ଟେକ୍ସଟ୍ରେ ରୂପାନ୍ତରିତ ନାହିଁ। ଆମର OCR ଟୁଲ୍ ଏହି ସମାଧାନ ଦ୍ୟାର୍ଧଂଗୃଂ ଆପଣଙ୍କ ଡକ୍ୟୁମେଣ୍ଟ ଦୃଷ୍ଟିଭଙ୍ଗି ଗଠନ ବିଶ୍ଳେଷଣ ଏବଂ ଉଚ୍ଚ ନିଖୁଁତତାରେ ପ୍ରତ୍ୟେକ ଶବ୍ଦ ଆବଷ୍କାର। ଏହା ସିଙ୍ଗଲ-ପୃଷ୍ଠ ରସିଦ ଠାରୁ ବহୁ-ପୃଷ୍ଠ ସ୍କ୍ୟାନ୍ ଅନୁବନ୍ଧନ ଏବଂ ଏକାଡେମିକ୍ ଦଲିଲ୍ ସବଜି ସୁସଜ୍ଜା ଗଲ୍ \ ସ୍ମରଣୀୟ ଭୌତ ଟାୟ୍ଥୀ ସମ୍ମାନ ଏବଂ ମଲ୍ଟି-ସ୍ତମ୍ଭ ପୃଷ୍ଠା।

ଯେ ସମ୍ପୂର୍ଣ୍ଣ ପ୍ରକ୍ରିୟା ଆପଣଙ୍କ ବ୍ରାଉଜ୍ରେ ଦେଶୀୟ ଭାବେ ଚଲେ, ଆପଣଙ୍କ ସଂବେଦନଶୀଳ ଡକ୍ୟୁମେଣ୍ଟ — ଆଇନି ଅନୁବନ୍ଧନ, ଚିକିତ୍ସା ରେକର୍ଡ, ଅର୍ଥନୈତିକ ଖାତ — ଆପଣଙ୍କ ଡିଭାଇସ୍ ଛଡ଼ିଯାଏ ନାହିଁ। କୌଣସି ଅପଲୋଡ୍, ନାହିଁ ଭୂତ ପ୍ରକ୍ରିୟାକରଣ, ଏବଂ ତୃତୀୟ-ପକ୍ଷ ସାଧାରଣ ନାହିଁ। ସରଳ କାର୍ଯ୍ୟଗୁଡି ଏକ ଇମେଜ୍ କିମ୍ବା ସ୍କ୍ରିନଶଟ୍ ଅଧୁକାରଛ ଇମେଜ-ଟୁ-ଟେକ୍ସଟ୍ ଟୁଲ୍ ସରଳତର ଅନୁଭବ। ଥରେ ଆପଣଙ୍କ ଆବଷ୍କାର ଟେକ୍ସଟ୍ ହେବାର ପରେ, ଟେକ୍ସଟ୍ ଠାରୁ PDF ରୂପାନ୍ତରକାରୀ ଦୁଇ ଡକ୍ୟୁମେଣ୍ଟ, କିମ୍ବା PDF ସଂଶୋଧନ ସିଧାସଳଖ। ସ୍କ୍ୟାନ୍ ଟେବୁଲ ସଙ୍ଗେ କାମ ଆବଶ୍ୟକ, ଆବଷ୍କୃତ ଟେକ୍ସଟ୍ ଏଠାରେ JSON-CSV ରୂପାନ୍ତରକାରୀ ଆପଣଙ୍କ ଡାଟା ଗଠିତ କରିବାକୁ।

OCR କ'ଣ?

OCR (Optical Character Recognition) ଏକ ଟେକ୍ନୋଲୋଜି ଯାହା ଚିତ୍ରଗୁଡିକୁ ରୂପାନ୍ତରିତ କରେ — ସ୍କ୍ୟାନ୍ ଦଲିଲ୍, ଫଟୋଗ୍ରାଫ୍, କିମ୍ବା ଇମେଜ-ଆଧାରିତ PDF ଟେକ୍ସଟ୍ — ମେସିନ-ପଠନୀୟ, ସଂଶୋଧନୀୟ ଟେକ୍ସଟ୍ରେ। OCR ଇଞ୍ଜିନ ଅକ୍ଷର ଆକୃତି, ପ୍ରତିରୂପ, ଏବଂ ଚିତ୍ର ବିଶ୍ଳେଷଣ କରେ ଚିଠି, ସଂଖ୍ୟା, ଏବଂ ପ୍ରତୀକ ଚିହ୍ନଟ କରିବାକୁ। ଆଧୁନିକ OCR ଶତାଧିକ ଭାଷା ସମର୍ଥନ କରେ ଏবଂ ବିଭିନ୍ନ ଫୁଣ୍ଟ, ଆକାର, ଏବଂ ଲେআଉଟ୍ ମୋକାବାଇ କରିପାରେ। ଏହା ଡକ୍ୟୁମେଣ୍ଟ ଡିଜିଟାଲାଇଜେସନ୍, ସେଲଯୋଗ୍ୟ PDF ସୃଷ୍ଟି, ସ୍ୱୟଂଚାଳିତ ଡାଟା ପ୍ରବେଶ, ଏବଂ ଅ Accessibility ଟୁଲସ୍ ଯାହା ମୁଦ୍ରିତ ଟେକ୍ସଟ ଉଚ୍ଚାରଣ କରେ ପିଛନେ ମୌଳିକ ଟେକ୍ନୋଲୋଜି।

ବାରମ୍ବାର ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନ

OCR କେଉଁ ଭାଷା ସମର୍ଥନ କରେ?

Tesseract.js ମାଧ୍ୟମରେ 100 ରୁ ଅଧିକ ଭାଷା। ଡ୍ରପଡାଉନରୁ ଯେକୌଣସି ଭାଷା ବାଛନ୍ତୁ, କିମ୍ବା ମିଶ୍ର-ଭାଷା ଡକ୍ୟୁମେଣ୍ଟ ପାଇଁ 3 ଭାଷା ପର୍ଯ୍ୟନ୍ତ ଏକାଠି କରନ୍ତୁ।

ଟେକ୍ସଟ ଉଦ୍ଧାର କେତେ ସଠିକ?

ସ୍ପଷ୍ଟ, ଉଚ୍ଚ-ରେଜୋଲ୍ୟୁସନ ସ୍କାନ ସାଧାରଣତଃ 90-98% ସଠିକତା ପ୍ରାପ୍ତ କରେ।

ବେଳେବେଳେ 100-ପୃଷ୍ଠାର PDF ଏକ ସେକେଣ୍ଡରେ କାହିଁକି ଶେଷ ହୁଏ?

ଯଦି PDF ରେ ପୂର୍ବରୁ ଚୟନଯୋଗ୍ୟ ଟେକ୍ସଟ ଲେୟାର ଥାଏ (ନେଟିଭ, ସ୍କାନ ନୁହେଁ), ତେବେ OCR ଚଳାଇବା ବଦଳରେ ଟେକ୍ସଟ ସିଧାସଳଖ ଉଦ୍ଧାର ହୁଏ। ଟେକ୍ସଟ ଲେୟାର ନଥିବା ସ୍କାନ ହୋଇଥିବା PDF ପାଇଁ ପ୍ରତ୍ୟେକ ପୃଷ୍ଠାରେ ସମ୍ପୂର୍ଣ୍ଣ OCR ଚାଲେ।

ସମ୍ବନ୍ଧୀୟ ଟୁଲ୍ସ