بدون رفع, 100% محلي، بدون حساب

شرح عملي

استخراج النص من ملف PDF ممسوح ضوئياً

ملف PDF الممسوح ضوئياً هو في جوهره صورة فوتوغرافية لصفحة: يبدو النص صحيحاً لكن لا يمكن تحديده أو البحث فيه أو نسخه لأنه مخزّن كبكسلات لا كأحرف. يحوّل التعرّف الضوئي على الأحرف (OCR) تلك البكسلات مجدداً إلى نص فعلي يمكنك لصقه في مستند، أو البحث فيه بـCtrl+F، أو فهرسته لاحقاً. يستخدم هذا الدليل محرّك OCR على الجهاز، فلا يغادر مسحك حاسوبك أبداً.

خطوة بخطوة

  1. افتح أداة OCR وأفلِت بداخلها ملف PDF الممسوح ضوئياً أو ملف الصورة. تقبل الأداة صيغ PDF وPNG وJPEG وWebP وعدة صيغ صور أخرى. وللمسح متعدد الصفحات، تكون صيغة PDF أكثر إدخال أحادي ملاءمةً.
  2. اختر لغة النص في المستند. الافتراضي هو الإنجليزية. ويساعد اختيار اللغة الصحيحة محرّك OCR على انتقاء أشكال الأحرف الصحيحة ويحسّن الدقة على الحروف المُشكَّلة والترقيم الخاص بالموطن.
    أداة OCR مع ملف PDF ممسوح ضوئياً مُحمَّل ومُحدِّد اللغة مضبوطاً على الإنجليزية
  3. انقر على تشغيل وانتظر اكتمال OCR. يعمل المحرّك (Tesseract، المُصرَّف إلى WebAssembly) بالكامل داخل متصفحك. تستغرق معالجة صفحة A4 واحدة بضع ثوانٍ على جهاز حديث. والناتج ملف نصي خام يمكنك تنزيله والنسخ منه.
    مخرج النص الخام المُستخرَج من PDF الممسوح ضوئياً، جاهزاً للنسخ والتنزيل

كيف تعتمد جودة OCR على جودة المسح

تهيمن جودة الإدخال على دقة OCR. مسح نظيف بدقة 300 DPI لمستند مطبوع (مخرج طابعة ليزر أو آلة تصوير) سيعطي نتائج شبه مثالية. أما صورة هاتف ضبابية مأخوذة بزاوية في إضاءة سيئة فستنتج مخرجاً أسوأ بكثير، بأحرف مقروءة خطأً وكلمات مدمجة وأسطر ناقصة. إذا كانت نتائجك ضعيفة، فحاول تحسين المسح المصدري: التقط الصورة بشكل مستقيم، في ضوء جيد، مع إبقاء الصفحة مسطّحة. ويمكن لأداة تعديل ميل PDF تقويم مسح مائل قليلاً قبل تشغيل OCR عليه.

ماذا تفعل بالنص المُستخرَج

المخرج ملف نصي خام بالأحرف المُتعرَّف عليها بترتيب القراءة. يمكنك لصقه في معالج نصوص، أو البحث فيه، أو ترجمته، أو استخدامه كنقطة بداية لمستند مُحرَّر. وللحصول على PDF قابل للبحث (صورة الصفحة الأصلية مع طبقة نص غير مرئية فوقها)، تستخدم عادةً برامج سطح مكتب مخصّصة مثل Adobe Acrobat أو OCRmyPDF: أما الأداة على الجهاز هنا فتُخرِج نصاً خاماً فقط، وهو ما تحتاجه معظم الاستخدامات فعلاً.

الأدوات المستخدمة في هذا الدليل

الأسئلة الشائعة

هل يُرفَع مسحي إلى خادم بعيد؟

لا. Tesseract مُصرَّف إلى WebAssembly ويعمل مباشرةً داخل علامة تبويب متصفحك. ينزّل نموذج اللغة (نحو 4 ميغابايت للنموذج السريع بالإنجليزية) من هذا الموقع مرة واحدة، ثم يبقى مخزّناً مؤقتاً للاستخدام دون اتصال. يُقرأ ملفك من قرصك المحلي ويُعالَج في الذاكرة: ولا يُرسَل إلى أي خادم أبداً. وهذا مهم خاصةً للعقود الممسوحة أو المستندات الطبية أو المراسلات الشخصية.

لماذا مخرج OCR غير مكتمل في مستندي؟

تأتي أخطاء OCR من جودة المسح (دقة منخفضة، ضبابية، ميل، ظلال) أو من خطوط ومخططات غير معتادة. جرّب أداة تعديل الميل أولاً إذا لم تكن الصفحة مستقيمة تماماً. وبالنسبة للنص المكتوب بخط اليد، تنخفض دقة Tesseract بشكل كبير: فهو مُدرَّب على أحرف مطبوعة لا على خط اليد. وفي المستندات المختلطة (نص مطبوع مع توقيع بخط اليد)، تخرج الأجزاء المطبوعة عادةً بشكل صحيح بينما تكون الأجزاء اليدوية مشوّهة أو محذوفة.