Skip to content
LlamaPDFLlamaPDF
🔍

PDF සිට Text (OCR)

ස්කෑන් PDF වලින් පෙළ උකහා ගන්න

අවසන් යාවත්කාලීන කිරීම:

OCR රූප සහ PDF වලින් පෙළ උපුටා ගනියි. LlamaPDF මුලින්ම PDF එක දැනටමත් තෝරාගත හැකි පෙළ ස්ථරයක් අඩංගුද යන්න පරීක්ෂා කර එය කෙලින්ම පිටපත් කරයි — වේගවත් සහ අහිමි නොවන. නැතහොත් (හෝ රූප සඳහා), එය සම්පූර්ණයෙන්ම ඔබේ බ්‍රවුසරය තුළ ක්‍රියාත්මක වන Tesseract.js වෙත වැටී යයි, විකල්ප ස්වයංක්‍රීය හඳුනා ගැනීම සමඟ භාෂා 100+ සඳහා සහාය දක්වයි.

ඔබේ ගොනුව මෙහි ඇදගෙන ඇද දමන්න

හෝ ක්ලික් කර තෝරන්න

.PDF.JPG.PNG.WEBP

උපරිම 50 MB · ලියාපදිංචි වීම අවශ්‍ය නැත

ඔබේ ගොනුව ඔබේ උපකරණයේ රැඳේ — කිසිවිටෙකත් උඩුගත නොකෙරේ

OCR සමඟ PDF හෝ රූපයකින් පෙළ ලබා ගැනීමේ ක්‍රමය

  1. 1

    Scan කළ PDF හෝ රූප ගොනුව upload කරන්න (PDF, PNG, JPG, TIFF, BMP, WebP).

  2. 2

    හොඳම නිරවද්‍යතාව සඳහා පෙළේ භාෂාව තෝරන්න. බහු-භාෂා ලේඛනයක් නම්, අදාළ භාෂා සියල්ල තෝරන්න. OCR engine, column, table, heading ඇතුළු සම්පූර්ණ ලේඛන ව්‍යුහය විශ්ලේෂණය කරයි.

  3. 3

    Extract Text ක්ලික් කරන්න. ලබාගත් පෙළ review කර copy කරන්න, හෝ text ගොනුවක් ලෙස download කරන්න. OCR processing සම්පූර්ණයෙන්ම බ්‍රව්සරයේදී සිදු වේ — ලේඛන කිසිවිටෙකත් upload නොවේ.

අපගේ OCR මෙවලම භාවිතා කළ යුත්තේ ඇයි?

Scan කළ ලේඛන, ඡායාරූප ගත කළ පිටු සහ image-based PDF ලේඛනවල පෙළ රූප ලෙස සිර කෙරේ. Machine-readable text ලෙස convert නොකර ඒ සොයා, copy, edit හෝ නැවත භාවිතා කළ නොහැක. රිසිට්පත් සිට scan කළ ගිවිසුම්, multi-column පිටු, table, ශ්‍රී ලාංකීය ලේඛනවල සිංහල හා දෙමළ — සෑම ලේඛනයකම ඉහළ නිරවද්‍යතාවයෙන් සෑම වචනයක්ම ලබා ගනී.

සම්පූර්ණ ක්‍රියාවලිය locally සිදු වේ — නීතිමය ගිවිසුම්, වෛද්‍ය වාර්තා, මූල්‍ය ප්‍රකාශ ඇතුළු සංවේදී ලේඛන ඔබේ උපකරණය හැර නොයයි. සරල කාර්ය සඳහා Image-to-text මෙවලම භාවිතා කරන්න. ඉනික්බිති Text-PDF converter සමඟ PDF ලෙස, PDF edit කිරීමට, හෝ scan කළ table සඳහා JSON-CSV converter භාවිතා කරන්න.

OCR යනු කුමක්ද?

OCR (Optical Character Recognition) යනු රූප ලෙස ඇති පෙළ — scan කළ ලේඛන, ඡායාරූප, image-based PDF — machine-readable, edit කළ හැකි text ලෙස convert කිරීමේ තාක්ෂණයයි. OCR engine, character හැඩ, pattern, spatial relationship විශ්ලේෂණය කොට අකුරු, ඉලක්කම් සහ සංකේත හඳුනා ගනී. භාෂා සිය ගණනකට සහය ඇති, document digitization, searchable PDF නිර්මාණය, ස්වයංක්‍රීය data entry සහ accessibility tool හි පදනම OCR ය.

නිතර අසන ප්‍රශ්න

OCR සහය දක්වන භාෂා?

Tesseract.js හරහා භාෂා 100කට වැඩි. ඩ්‍රොප්ඩවුන් වෙතින් ඕනෑම භාෂාවක් තෝරන්න, නැතිනම් මිශ්‍ර-භාෂා ලේඛන සඳහා භාෂා 3ක් දක්වා එකට එක් කරන්න.

Text extraction ෙහි නිරවද්‍යතාව?

පැහැදිලි, ඉහළ-විභේදන ස්කෑන් සාමාන්‍යයෙන් 90-98% නිරවද්‍යතාව ලබයි.

සමහර විට පිටු 100ක PDF එකක් තත්පරයකින් ඇයි ඉවර වෙන්නේ?

PDF හි දැනටමත් තේරිය හැකි පෙළ ස්තරයක් තිබේ නම් (ස්වදේශීය, ස්කෑන් නොවේ), OCR ධාවනය කරනවා වෙනුවට පෙළ කෙලින්ම උකහා ගනී. පෙළ ස්තරයක් නැති ස්කෑන් කළ PDF සඳහා එක් එක් පිටුව මත සම්පූර්ණ OCR ක්‍රියා කරයි.

අදාළ මෙවලම්