ट्यूटोरियल

स्कैन किए गए PDF से टेक्स्ट निकालें

एक स्कैन किया गया PDF मूलतः किसी पृष्ठ की एक तस्वीर होता है: टेक्स्ट सही दिखता है पर इसे चुना, खोजा या कॉपी नहीं किया जा सकता क्योंकि यह वर्णों के रूप में नहीं, बल्कि पिक्सेल के रूप में संग्रहीत होता है। ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) उन पिक्सेलों को वापस वास्तविक टेक्स्ट में बदल देता है जिसे आप किसी दस्तावेज़ में पेस्ट कर सकते हैं, Ctrl+F से खोज सकते हैं या बाद के लिए अनुक्रमित कर सकते हैं। यह मार्गदर्शिका एक ऑन-डिवाइस OCR इंजन का उपयोग करती है, इसलिए आपका स्कैन कभी आपके कंप्यूटर से बाहर नहीं जाता।

चरण दर चरण

OCR टूल खोलें और अपना स्कैन किया गया PDF या छवि फ़ाइल उसमें छोड़ दें। टूल PDF, PNG, JPEG, WebP और कई अन्य छवि फ़ॉर्मेट स्वीकार करता है। बहु-पृष्ठ स्कैन के लिए, PDF फ़ॉर्मेट सबसे सुविधाजनक एकल इनपुट है।
दस्तावेज़ में टेक्स्ट की भाषा चुनें। डिफ़ॉल्ट अंग्रेज़ी है। सही भाषा चुनने से OCR इंजन को सही वर्ण आकृतियाँ चुनने में मदद मिलती है और उच्चारण चिह्न वाले अक्षरों तथा भाषा-विशिष्ट विराम चिह्नों पर सटीकता बढ़ती है।
Run पर क्लिक करें और OCR के पूरा होने की प्रतीक्षा करें। इंजन (Tesseract, WebAssembly में संकलित) पूरी तरह आपके ब्राउज़र में चलता है। एक आधुनिक डिवाइस पर एकल A4 पृष्ठ संसाधित करने में कुछ सेकंड लगते हैं। परिणाम एक सादा टेक्स्ट फ़ाइल होता है जिसे आप डाउनलोड कर सकते हैं और जिससे कॉपी कर सकते हैं।

OCR की गुणवत्ता स्कैन की गुणवत्ता पर कैसे निर्भर करती है

OCR की सटीकता मुख्य रूप से इनपुट की गुणवत्ता से तय होती है। किसी मुद्रित दस्तावेज़ का साफ़ 300 DPI स्कैन (लेज़र प्रिंटर या फ़ोटोकॉपियर का आउटपुट) लगभग सटीक परिणाम देगा। खराब रोशनी में किसी कोण से लिया गया धुंधला फ़ोन फ़ोटो कहीं ज़्यादा खराब आउटपुट देगा, जिसमें गलत पढ़े गए वर्ण, मिले हुए शब्द और गुम पंक्तियाँ होंगी। अगर आपके परिणाम खराब हैं, तो स्रोत स्कैन सुधारने की कोशिश करें: पृष्ठ के बिल्कुल सामने से, अच्छी रोशनी में फ़ोटो लें, और पृष्ठ को सपाट रखें। PDF deskew टूल OCR चलाने से पहले थोड़े घुमे हुए स्कैन को सीधा कर सकता है।

निकाले गए टेक्स्ट के साथ क्या करें

आउटपुट एक सादा टेक्स्ट फ़ाइल होती है जिसमें पहचाने गए वर्ण पढ़ने के क्रम में होते हैं। आप इसे किसी वर्ड प्रोसेसर में पेस्ट कर सकते हैं, इसे खोज सकते हैं, अनुवाद कर सकते हैं या किसी संपादित दस्तावेज़ के लिए शुरुआती बिंदु के रूप में उपयोग कर सकते हैं। किसी खोजने योग्य PDF (मूल पृष्ठ छवि पर एक अदृश्य टेक्स्ट परत आरोपित) के लिए, आप आमतौर पर Adobe Acrobat या OCRmyPDF जैसे समर्पित डेस्कटॉप सॉफ़्टवेयर का उपयोग करेंगे: यहाँ का ऑन-डिवाइस टूल केवल सादा टेक्स्ट देता है, जो वास्तव में अधिकांश उपयोग मामलों को चाहिए होता है।

इस गाइड में इस्तेमाल किए गए टूल

अक्सर पूछे जाने वाले सवाल

क्या मेरा स्कैन किसी दूरस्थ सर्वर पर अपलोड होता है?

नहीं। Tesseract WebAssembly में संकलित है और सीधे आपके ब्राउज़र टैब के अंदर चलता है। भाषा मॉडल (तेज़ अंग्रेज़ी मॉडल के लिए लगभग 4 MB) इस साइट से एक बार डाउनलोड होता है, फिर ऑफ़लाइन उपयोग के लिए कैश रहता है। आपकी फ़ाइल आपकी स्थानीय डिस्क से पढ़ी जाती है और मेमोरी में संसाधित होती है: इसे कभी किसी सर्वर पर नहीं भेजा जाता। यह विशेष रूप से स्कैन किए गए अनुबंधों, चिकित्सा दस्तावेज़ों या व्यक्तिगत पत्राचार के लिए मायने रखता है।

मेरे दस्तावेज़ पर OCR का आउटपुट अपूर्ण क्यों है?

OCR त्रुटियाँ स्कैन की गुणवत्ता (कम रिज़ॉल्यूशन, धुंधलापन, तिरछापन, छाया) से या असामान्य फ़ॉन्ट और लेआउट से आती हैं। अगर पृष्ठ पूरी तरह सीधा न हो तो पहले deskew टूल आज़माएँ। हस्तलिखित टेक्स्ट के लिए, Tesseract की सटीकता काफ़ी गिर जाती है: यह मुद्रित वर्णों पर प्रशिक्षित है, हस्तलेखन पर नहीं। मिश्रित दस्तावेज़ों (मुद्रित टेक्स्ट के साथ एक हस्तलिखित हस्ताक्षर) के लिए, मुद्रित हिस्से आमतौर पर सही निकलेंगे और हस्तलिखित हिस्से गड़बड़ या छूट जाएँगे।