Урок

Извличане на текст от сканиран PDF

Сканираният PDF по същество е снимка на страница: текстът изглежда правилен, но не може да се избере, търси или копира, защото се съхранява като пиксели, а не като символи. Оптичното разпознаване на знаци (OCR) превръща тези пиксели обратно в истински текст, който можете да поставите в документ, да търсите с Ctrl+F или да индексирате за по-късно. Това ръководство използва OCR ядро на устройството, така че сканът ви никога не напуска компютъра.

Стъпка по стъпка

Отворете OCR инструмента и пуснете сканирания PDF или файл с изображение в него. Инструментът приема PDF, PNG, JPEG, WebP и няколко други формата за изображения. За многостраничен скан форматът PDF е най-удобният единичен вход.
Изберете езика на текста в документа. По подразбиране е английски. Изборът на правилния език помага на OCR ядрото да подбере точните форми на знаците и подобрява точността при букви с ударения и пунктуация, специфична за езика.
Натиснете Изпълни и изчакайте OCR да приключи. Ядрото (Tesseract, компилиран до WebAssembly) работи изцяло в браузъра ви. Обработката на една страница A4 отнема няколко секунди на съвременно устройство. Резултатът е обикновен текстов файл, който можете да изтеглите и да копирате от него.

Как качеството на OCR зависи от качеството на скана

Точността на OCR се определя предимно от качеството на входа. Чист скан при 300 DPI на отпечатан документ (изход от лазерен принтер или копирна машина) ще даде почти перфектни резултати. Замъглена снимка от телефон, направена под ъгъл при лошо осветление, ще даде много по-лош изход, с грешно разчетени знаци, слети думи и липсващи редове. Ако резултатите ви са лоши, опитайте да подобрите изходния скан: направете снимката право отпред, при добра светлина, и дръжте страницата плоска. Инструментът за изправяне на PDF може да изправи леко завъртян скан, преди да пуснете OCR върху него.

Какво да правите с извлечения текст

Изходът е обикновен текстов файл с разпознатите знаци в реда на четене. Можете да го поставите в текстообработваща програма, да го търсите, да го превеждате или да го използвате като отправна точка за редактиран документ. За PDF за търсене (оригиналното изображение на страницата с наслоен невидим текстов слой) обикновено бихте използвали специализиран настолен софтуер като Adobe Acrobat или OCRmyPDF: инструментът на устройството тук извежда само обикновен текст, което е това, от което повечето случаи на употреба всъщност се нуждаят.

Инструментите, използвани в това ръководство

Често задавани въпроси

Качва ли се сканът ми до отдалечен сървър?

Не. Tesseract е компилиран до WebAssembly и работи направо в раздела на браузъра ви. Езиковият модел (около 4 MB за бързия английски модел) се сваля от този сайт веднъж, после остава кеширан за офлайн употреба. Файлът ви се чете от локалния диск и се обработва в паметта: никога не се изпраща до сървър. Това има особено значение за сканирани договори, медицински документи или лична кореспонденция.

Защо изходът от OCR е несъвършен за моя документ?

Грешките в OCR идват от качеството на скана (ниска резолюция, замъгляване, наклон, сенки) или от необичайни шрифтове и оформления. Първо опитайте инструмента за изправяне, ако страницата не е напълно права. За ръкописен текст точността на Tesseract спада значително: той е обучен на печатни знаци, а не на ръкопис. За смесени документи (печатен текст плюс ръкописен подпис) печатните части обикновено излизат правилно, а ръкописните части ще бъдат изкривени или пропуснати.