Skip to content
LlamaPDFLlamaPDF
🔍

PDF إلى نص (OCR)

استخراج النص من ملفات PDF الممسوحة ضوئياً

آخر تحديث:

OCR يستخرج النصوص من الصور وملفات PDF. يتحقق LlamaPDF أولاً مما إذا كان الـPDF يحتوي بالفعل على طبقة نص قابلة للتحديد فينسخها مباشرة — سريع ودون خسارة. وإن لم يكن (أو للصور)، يعود إلى Tesseract.js الذي يعمل بالكامل في متصفحك، ويدعم 100+ لغة مع كشف تلقائي اختياري.

اسحب وأفلت ملفك هنا

أو انقر للاختيار

.PDF.JPG.PNG.WEBP

الحد الأقصى 50 ميغابايت · لا يتطلب تسجيل

ملفك يبقى على جهازك — لا يتم رفعه أبداً

كيفية استخراج النص من PDF أو صورة باستخدام OCR

  1. 1

    ارفع ملف PDF الممسوح ضوئياً أو ملف الصورة بسحبه إلى المربع أعلاه أو بالنقر للتصفح. تدعم الأداة صيغ PDF وPNG وJPG وTIFF وBMP وWebP.

  2. 2

    حدد لغة النص في مستندك للحصول على أفضل دقة تعرّف. للمستندات متعددة اللغات، حدد جميع اللغات المطبّقة. يحلل محرك OCR بنية المستند بالكامل بما في ذلك الأعمدة والجداول والعناوين.

  3. 3

    انقر على "استخراج النص" لتشغيل التعرف البصري على الأحرف على مستندك. راجع النص المستخرج وانسخه، أو حمّله كملف نصي. تتم معالجة OCR بالكامل مباشرة في متصفحك باستخدام خوارزميات تعرّف متقدمة — لا تُرفع مستنداتك أبداً إلى أي خادم مما يضمن خصوصية كاملة.

لماذا تستخدم أداة OCR من LlamaPDF؟

المستندات الممسوحة ضوئياً والصفحات المصوّرة وملفات PDF المبنية على صور تحبس النص القيّم داخل صور. لا يمكنك البحث عن ذلك المحتوى أو نسخه أو تحريره أو إعادة استخدامه دون تحويله أولاً إلى نص يمكن للآلة قراءته. أداة OCR لدينا تحل هذه المشكلة بتحليل البنية البصرية لمستندك واستخراج كل كلمة بدقة عالية. تتعامل مع كل شيء من إيصالات الصفحة الواحدة إلى العقود الممسوحة ضوئياً متعددة الصفحات والأوراق الأكاديمية — مع التعرف على النص المطبوع عبر عشرات اللغات والحفاظ على ترتيب القراءة في التخطيطات المعقدة بما في ذلك الصفحات متعددة الأعمدة والجداول.

لأن العملية بأكملها تعمل محلياً في متصفحك، فإن مستنداتك الحساسة — العقود القانونية والسجلات الطبية والبيانات المالية — لا تغادر جهازك أبداً. لا رفع ولا معالجة سحابية ولا وصول من طرف ثالث. للمهام الأبسط كاستخراج نص من صورة أو لقطة شاشة واحدة، توفر أداة استخراج النص من الصور تجربة مبسّطة. بمجرد حصولك على النص المستخرج، حوّله إلى مستند مناسب بأداة تحويل النص إلى PDF، أو حرّر ملف PDF الأصلي مباشرة. إذا كنت بحاجة للعمل مع جداول ممسوحة ضوئياً، استخرج النص هنا ثم استخدم أداة تحويل JSON-CSV لهيكلة بياناتك.

ما هي تقنية OCR؟

OCR (التعرف البصري على الأحرف) هي تقنية تحوّل صور النص — سواء من مستندات ممسوحة ضوئياً أو صور فوتوغرافية أو ملفات PDF المبنية على صور — إلى نص قابل للقراءة والتحرير بواسطة الآلة. تحلل محركات OCR أشكال الأحرف وأنماطها وعلاقاتها المكانية في الصورة لتحديد الحروف والأرقام والرموز. تدعم تقنية OCR الحديثة مئات اللغات وتتعامل مع مجموعة واسعة من الخطوط والأحجام والتخطيطات. وهي التقنية الأساسية وراء رقمنة المستندات وإنشاء ملفات PDF قابلة للبحث وإدخال البيانات الآلي وأدوات إمكانية الوصول التي تقرأ النص المطبوع بصوت عالٍ.

الأسئلة الشائعة

ما اللغات التي يدعمها OCR؟

أكثر من 100 لغة عبر Tesseract.js. اختر أي لغة من القائمة المنسدلة، أو ادمج حتى 3 لغات للمستندات متعددة اللغات.

ما مدى دقة استخراج النص؟

عادةً ما تحقق المسوحات الواضحة عالية الدقة نسبة دقة 90-98%.

لماذا تنتهي المعالجة أحياناً في ثانية لملف PDF من 100 صفحة؟

إذا كان ملف PDF يحتوي بالفعل على طبقة نص قابلة للتحديد (رقمي لا ممسوح ضوئياً)، يُستخرج النص مباشرة بدلاً من تشغيل OCR. أما ملفات PDF الممسوحة التي لا تحتوي على طبقة نص، فيُطبَّق OCR كامل على كل صفحة.

أدوات ذات صلة