Инструкция

Извлечение текста из отсканированного PDF

Отсканированный PDF это, по сути, фотография страницы: текст выглядит правильно, но его нельзя выделить, найти или скопировать, потому что он хранится в виде пикселей, а не символов. Оптическое распознавание символов (OCR) превращает эти пиксели обратно в настоящий текст, который вы можете вставить в документ, найти через Ctrl+F или проиндексировать на будущее. В этом руководстве используется OCR-движок на устройстве, поэтому ваш скан никогда не покидает компьютер.

Шаг за шагом

Откройте инструмент OCR и перетащите в него отсканированный PDF или файл изображения. Инструмент принимает PDF, PNG, JPEG, WebP и ряд других форматов изображений. Для многостраничного скана формат PDF самый удобный единый источник ввода.
Выберите язык текста в документе. По умолчанию используется английский. Выбор правильного языка помогает OCR-движку подобрать нужные формы символов и повышает точность на буквах с диакритикой и пунктуации, специфичной для конкретного языка.
Нажмите «Выполнить» и дождитесь завершения OCR. Движок (Tesseract, скомпилированный в WebAssembly) работает целиком в браузере. Обработка одной страницы A4 занимает несколько секунд на современном устройстве. Результат это обычный текстовый файл, который вы можете скачать и из которого можно копировать.

Как качество OCR зависит от качества скана

Точность OCR в первую очередь определяется качеством исходника. Чистый скан в 300 DPI печатного документа (вывод лазерного принтера или копира) даст почти идеальный результат. Размытое фото с телефона, снятое под углом при плохом освещении, даст гораздо худший вывод с неправильно распознанными символами, слипшимися словами и пропущенными строками. Если результаты плохие, попробуйте улучшить исходный скан: снимайте строго фронтально, при хорошем свете, держа страницу ровно. Инструмент выравнивания PDF может выпрямить слегка повёрнутый скан перед запуском OCR.

Что делать с извлечённым текстом

Вывод это обычный текстовый файл с распознанными символами в порядке чтения. Вы можете вставить его в текстовый редактор, найти в нём что-то, перевести его или использовать как отправную точку для редактируемого документа. Для PDF с возможностью поиска (исходное изображение страницы с наложенным невидимым текстовым слоем) вы обычно использовали бы специализированные настольные программы вроде Adobe Acrobat или OCRmyPDF: инструмент на устройстве здесь выдаёт только обычный текст, что и нужно в большинстве случаев.

Инструменты из этого гайда

Частые вопросы

Загружается ли мой скан на удалённый сервер?

Нет. Tesseract скомпилирован в WebAssembly и работает прямо во вкладке браузера. Языковая модель (около 4 МБ для быстрой английской модели) скачивается с этого сайта один раз, а затем остаётся в кэше для офлайн-использования. Ваш файл считывается с локального диска и обрабатывается в памяти: он никогда не отправляется на сервер. Это особенно важно для отсканированных договоров, медицинских документов или личной переписки.

Почему вывод OCR на моём документе несовершенен?

Ошибки OCR возникают из-за качества скана (низкое разрешение, размытие, перекос, тени) или из-за необычных шрифтов и вёрстки. Сначала попробуйте инструмент выравнивания, если страница не идеально ровная. Для рукописного текста точность Tesseract значительно падает: он обучен на печатных символах, а не на рукописном письме. Для смешанных документов (печатный текст плюс рукописная подпись) печатные части обычно распознаются правильно, а рукописные будут искажены или пропущены.