🔍

PDF به متن (OCR)

استخراج متن از PDF‌های اسکن‌شده

آخرین به‌روزرسانی: ۲۴ اردیبهشت ۱۴۰۵

OCR متن را از تصاویر و PDF استخراج می‌کند. LlamaPDF ابتدا بررسی می‌کند که آیا PDF از قبل یک لایه‌ی متنی قابل انتخاب دارد یا نه و آن را مستقیماً کپی می‌کند — سریع و بدون اتلاف. اگر نداشت (یا برای تصاویر)، به Tesseract.js که به‌طور کامل در مرورگر شما اجرا می‌شود بازمی‌گردد و از 100+ زبان با تشخیص خودکار اختیاری پشتیبانی می‌کند.

فایل خود را اینجا بکشید و رها کنید

یا برای انتخاب کلیک کنید

.PDF.JPG.PNG.WEBP

حداکثر ۵۰ مگابایت · بدون نیاز به ثبت‌نام

فایل شما روی دستگاهتان می‌ماند — هرگز آپلود نمی‌شود

چگونه با OCR متن را از PDF یا تصویر استخراج کنیم

1
PDF اسکن‌شده یا فایل تصویری خود را با کشیدن و رها کردن در کادر بالا یا کلیک برای انتخاب آپلود کنید. فرمت‌های PDF، PNG، JPG، TIFF، BMP و WebP پشتیبانی می‌شوند.
2
زبان متن سند خود را برای دقت بهینه شناسایی انتخاب کنید. برای اسناد چندزبانه، تمام زبان‌های مربوطه را انتخاب کنید. موتور OCR کل ساختار سند — شامل ستون‌ها، جداول و سربرگ‌ها — را تحلیل می‌کند.
3
روی استخراج متن کلیک کنید تا تشخیص نوری کاراکتر روی سند شما اجرا شود. متن استخراج‌شده را بازبینی و کپی کنید یا به‌صورت فایل متنی دانلود کنید. تمام پردازش OCR مستقیماً در مرورگر شما با الگوریتم‌های پیشرفته شناسایی اجرا می‌شود — اسناد شما هرگز به سروری آپلود نمی‌شوند و حریم خصوصی کامل تضمین می‌گردد.

چرا از ابزار OCR ما استفاده کنید؟

اسناد اسکن‌شده، صفحات عکس‌گرفته‌شده و PDF‌های مبتنی بر تصویر متن ارزشمند را درون تصاویر قفل می‌کنند. نمی‌توانید آن محتوا را جستجو، کپی، ویرایش یا بازاستفاده کنید مگر اینکه ابتدا آن را به متن قابل‌خواندن توسط ماشین تبدیل کنید. ابزار OCR ما این مشکل را با تحلیل ساختار بصری سند و استخراج هر کلمه با دقت بالا حل می‌کند. از رسیدهای تک‌صفحه‌ای گرفته تا قراردادهای اسکن‌شده چندصفحه‌ای و مقالات دانشگاهی — متن چاپی در ده‌ها زبان را شناسایی می‌کند و ترتیب خوانش چیدمان‌های پیچیده شامل صفحات چندستونه و جداول را حفظ می‌کند.

چون کل فرآیند به‌صورت محلی در مرورگر شما اجرا می‌شود، اسناد حساس شما — قراردادهای حقوقی، پرونده‌های پزشکی، صورت‌های مالی — هرگز از دستگاهتان خارج نمی‌شوند. هیچ آپلودی، هیچ پردازش ابری و هیچ دسترسی شخص ثالث وجود ندارد. برای کارهای ساده‌تر مانند استخراج متن از یک عکس یا اسکرین‌شات، ابزار تصویر-به-متن تجربه‌ای ساده‌تر ارائه می‌دهد. پس از استخراج متن، آن را با مبدل متن به PDF به سند تبدیل کنید یا PDF اصلی را مستقیماً ویرایش کنید. اگر نیاز به کار با جداول اسکن‌شده دارید، متن را اینجا استخراج کنید و سپس با مبدل JSON-CSV داده‌ها را ساختاردهی کنید.

OCR چیست؟

OCR (تشخیص نوری کاراکتر) فناوری‌ای است که تصاویر متن — چه از اسناد اسکن‌شده، عکس‌ها یا PDF‌های مبتنی بر تصویر — را به متن قابل‌خواندن و ویرایش توسط ماشین تبدیل می‌کند. موتورهای OCR شکل‌ها، الگوها و روابط فضایی کاراکترها در تصویر را تحلیل می‌کنند تا حروف، اعداد و نمادها را شناسایی کنند. OCR مدرن صدها زبان را پشتیبانی می‌کند و می‌تواند طیف وسیعی از فونت‌ها، اندازه‌ها و چیدمان‌ها را مدیریت کند. این فناوری اساس دیجیتال‌سازی اسناد، ایجاد PDF‌های قابل‌جستجو، ورود خودکار داده و ابزارهای دسترس‌پذیری است که متن چاپی را بلند می‌خوانند.

سوالات متداول

OCR از چه زبان‌هایی پشتیبانی می‌کند؟

بیش از ۱۰۰ زبان از طریق Tesseract.js. هر زبانی را از منوی کشویی انتخاب کنید، یا تا ۳ زبان را برای اسناد چندزبانه ترکیب کنید.

دقت استخراج متن چقدر است؟

اسکن‌های واضح و با رزولوشن بالا معمولاً به دقت ۹۰ تا ۹۸ درصد می‌رسند.

چرا گاهی برای یک PDF ۱۰۰ صفحه‌ای در یک ثانیه تمام می‌شود؟

اگر PDF از قبل دارای لایه متن قابل انتخاب باشد (دیجیتال، نه اسکن‌شده)، متن مستقیماً استخراج می‌شود به جای اجرای OCR. برای PDFهای اسکن‌شده بدون لایه متن، OCR کامل روی هر صفحه اجرا می‌شود.

ابزارهای مرتبط

📝PDF به متن