OCR, छवियों और PDF से टेक्स्ट निकालें

एक छवि या PDF डालें और पहचाना गया टेक्स्ट प्राप्त करें। OCR पूरी तरह आपके ब्राउज़र में चलता है (ऑन-डिवाइस, पहले लोड के बाद ऑफ़लाइन), कुछ भी अपलोड नहीं होता।

OCR · छवि/PDF से टेक्स्ट कैसे काम करता है

OCR एक स्कैन की गई इमेज या इमेज-आधारित PDF को ऐसे टेक्स्ट में बदलता है जिसे आप कॉपी, खोज और संपादित कर सकते हैं, tesseract.js का उपयोग करते हुए जो पूरी तरह आपके ब्राउज़र में चलता है। आप सेलेक्टर से दस्तावेज़ भाषा चुनते हैं, संबंधित भाषा मॉडल एक बार आपके ब्राउज़र में डाउनलोड होता है, और उसके बाद उस cached मॉडल से सभी recognition ऑफलाइन चलती है। आपकी स्कैन की गई फ़ाइलें रूपांतरण के दौरान कभी किसी सर्वर को नहीं भेजी जातीं।

Recognition सटीकता स्कैन क्वालिटी पर दृढ़ता से निर्भर करती है। 200 DPI या उससे अधिक पर साफ, उच्च-कंट्रास्ट स्कैन, न्यूनतम बैकग्राउंड शोर और सीधे पेज संरेखण के साथ, सर्वोत्तम परिणाम देते हैं। धुंधले, कम-रेज़ोल्यूशन या भारी रूप से compressed JPEG, कॉलम या जटिल लेआउट वाले पृष्ठ, और हस्तलिखित टेक्स्ट सभी सटीकता कम करते हैं। टूल एक plain text ब्लॉक आउटपुट करता है; संरक्षित टेबल या बहु-कॉलम लेआउट जैसे स्ट्रक्चर्ड आउटपुट के लिए post-processing की आवश्यकता है। OCR से पहले टेढ़े स्कैन पर PDF Deskew टूल चलाने से recognition दर सुधरती है।

लिखा है Bastien Sulyan

OCR · छवि/PDF से टेक्स्ट: चरण दर चरण उपयोग विधि

अपनी स्कैन की गई इमेज (PNG, JPG, TIFF) या इमेज-आधारित PDF को अपलोड क्षेत्र पर ड्रॉप करें।
भाषा ड्रॉपडाउन से दस्तावेज़ की प्राथमिक भाषा चुनें।
यदि आप पहली बार उस भाषा का उपयोग कर रहे हैं, तो भाषा मॉडल डाउनलोड होने की प्रतीक्षा करें (यह एक बार होता है)।
Extract text पर क्लिक करें और tesseract.js के प्रत्येक पृष्ठ को प्रोसेस करने की प्रतीक्षा करें।
पहचाना गया टेक्स्ट कॉपी करें या plain text फ़ाइल के रूप में डाउनलोड करें।

सामान्य उपयोग के मामले

एक स्कैन की गई रसीद से लाइन आइटम स्प्रेडशीट में निकालने हैं; OCR चलाएं और अपने अकाउंटिंग सॉफ्टवेयर में पेस्ट करें।
स्कैन किए गए जर्नल लेखों के आर्काइव को टेक्स्ट-सर्चेबल बनाना है; indexing के लिए प्रत्येक को OCR से टेक्स्ट में बदलें।
मीटिंग के व्हाइटबोर्ड की फोटो में नोट हैं जिन्हें संपादन योग्य दस्तावेज़ में बदलना है।
जर्मन में स्कैन किए गए ऐतिहासिक दस्तावेज़ से अनुवाद के लिए टेक्स्ट निकालना है; OCR चलाने से पहले German भाषा चुनें।

अक्सर पूछे जाने वाले प्रश्न

OCR काम करने से पहले मुझे भाषा मॉडल क्यों डाउनलोड करना होगा?

tesseract.js प्रत्येक भाषा के लिए विशिष्ट प्रशिक्षित neural network डेटा फ़ाइलों का उपयोग करता है। ये फ़ाइलें कई मेगाबाइट की होती हैं और पहली बार जब आप वह भाषा चुनते हैं तो इसी साइट से एक बार डाउनलोड होती हैं (हम इन्हें खुद होस्ट करते हैं, किसी तीसरे-पक्ष के CDN से नहीं)। प्रारंभिक डाउनलोड के बाद मॉडल आपके ब्राउज़र द्वारा cached हो जाता है, और उस भाषा की सभी आगे की recognition पूरी तरह ऑफलाइन चलती है।

OCR सटीकता को सबसे अधिक कौन से कारक प्रभावित करते हैं?

स्कैन रेज़ोल्यूशन (200 DPI न्यूनतम, 300 DPI अनुशंसित), इमेज sharpness, टेक्स्ट और बैकग्राउंड के बीच कंट्रास्ट, और पृष्ठ का सीधा होना सटीकता को दृढ़ता से प्रभावित करते हैं। भारी रूप से compressed JPEG स्कैन, बहुत छोटे फ़ॉन्ट, और मिश्रित orientation या जटिल कॉलम लेआउट वाले पृष्ठ recognition errors के सबसे सामान्य स्रोत हैं।

क्या OCR हस्तलिखित टेक्स्ट पढ़ सकता है?

tesseract.js मुख्य रूप से मुद्रित टेक्स्ट पर प्रशिक्षित है। हस्तलेखन recognition सटीकता आमतौर पर कम और अविश्वसनीय है, विशेष रूप से cursive script के लिए। हस्तलिखित दस्तावेज़ों के लिए, समर्पित handwriting recognition टूल बेहतर परिणाम देते हैं।

क्या टेक्स्ट निष्कर्षण के दौरान मेरे स्कैन किए गए दस्तावेज़ कहीं भेजे जाते हैं?

नहीं। भाषा मॉडल cached होने के बाद, प्रत्येक recognition कार्य tesseract.js का उपयोग करके पूरी तरह आपके ब्राउज़र में होता है। स्कैन किए गए दस्तावेज़ों में व्यक्तिगत या गोपनीय कंटेंट हो सकता है; यह local-only प्रोसेसिंग का अर्थ है कि वह कंटेंट कभी सर्वर तक नहीं पहुंचता।

क्या टूल मूल स्कैन का लेआउट संरक्षित करता है?

आउटपुट पढ़ने के क्रम में एक plain text स्ट्रीम है। टेबल, कॉलम, हेडर और अन्य लेआउट तत्व संरचना के रूप में संरक्षित नहीं होते; टूल केवल टेक्स्ट कंटेंट आउटपुट करता है। लेआउट-संरक्षण आउटपुट के लिए, लेआउट विश्लेषण के साथ अधिक उन्नत OCR पाइपलाइन की आवश्यकता है।

क्या मैं ऐसी PDF पर OCR चला सकता हूं जिसमें पहले से सेलेक्टेबल टेक्स्ट हो?

टूल इमेज-आधारित PDF प्रोसेस कर सकता है जहां प्रत्येक पृष्ठ बिना एम्बेडेड टेक्स्ट के रास्टर इमेज है। यदि आपकी PDF में पहले से टेक्स्ट लेयर है (आप व्यूअर में टेक्स्ट चुन और कॉपी कर सकते हैं), तो OCR चलाना अनावश्यक है; मौजूदा टेक्स्ट लेयर recognition चरण के बिना वही जानकारी देती है।

क्या मैं अपने फ़ोन से ली गई फोटो पर OCR चला सकता हूं?

हां, और tesseract.js मोबाइल ब्राउज़र पर काम करता है, इसलिए आप यह पेज उसी फ़ोन पर भी खोल सकते हैं जिसने वह फोटो ली थी। तिरछे या असमान रोशनी में ली गई फोटो फ़्लैटबेड स्कैन से ज़्यादा खराब पहचानी जाती है; शॉट को सीधा करना और पहले बैकग्राउंड क्रॉप करना मदद करता है।

क्या OCR उपयोग करने के लिए कोई अकाउंट बनाना या भुगतान करना पड़ता है?

नहीं। कोई साइन-अप नहीं और कोई शुल्क नहीं। इसमें शामिल एकमात्र डाउनलोड वह वन-टाइम भाषा मॉडल है जो tesseract.js को चाहिए, जो एक बार का इंजन डाउनलोड है, कोई सब्सक्रिप्शन या पेवॉल नहीं।