OCR, извлечь текст из изображений и PDF

Перетащите изображение или PDF и получите распознанный текст. OCR работает полностью в вашем браузере (на устройстве, офлайн после первой загрузки), ничего не загружается.

Как работает OCR · изображение/PDF в текст

OCR конвертирует отсканированное изображение или PDF на основе изображений в текст, который можно копировать, искать и редактировать, используя tesseract.js, работающий полностью внутри браузера. Вы выбираете язык документа в селекторе, соответствующая языковая модель загружается в браузер один раз, и всё последующее распознавание выполняется офлайн на основе кэшированной модели. Отсканированные файлы никогда не передаются на сервер в процессе конвертации.

Точность распознавания сильно зависит от качества скана. Чистые высококонтрастные сканы от 200 DPI и выше с минимальным фоновым шумом и ровным выравниванием страниц дают наилучшие результаты. Размытые, низкоразрешающие или сильно сжатые JPEG, страницы с колонками или сложными макетами, а также рукописный текст снижают точность. Инструмент выводит блок обычного текста; для структурированного вывода с сохранёнными таблицами или многоколоночным макетом требуется постобработка. Запуск инструмента PDF Deskew на перекошенных сканах перед OCR обычно улучшает качество распознавания.

Автор: Bastien Sulyan

OCR · изображение/PDF в текст: пошаговая инструкция

Перетащите отсканированное изображение (PNG, JPG, TIFF) или PDF на основе изображений в область загрузки.
Выберите основной язык документа в выпадающем списке языков.
Если вы используете этот язык впервые, дождитесь загрузки языковой модели (это происходит один раз).
Нажмите «Извлечь текст» и дождитесь обработки каждой страницы tesseract.js.
Скопируйте распознанный текст или скачайте его как обычный текстовый файл.

Частые сценарии использования

Из отсканированного чека нужно извлечь позиции в таблицу; запустите OCR для получения текста, затем вставьте в бухгалтерское ПО.
Архив отсканированных журнальных статей нужно сделать доступным для текстового поиска; конвертируйте каждую в текст с помощью OCR для индексирования.
Сфотографированная доска с совещания содержит заметки, которые нужно превратить в редактируемый документ.
Исторический отсканированный документ на немецком нуждается в извлечении текста для перевода; выберите немецкий язык перед запуском OCR.

Часто задаваемые вопросы

Почему нужно скачивать языковую модель до начала работы OCR?

tesseract.js использует обученные файлы данных нейронной сети, специфичные для каждого языка. Эти файлы весят несколько мегабайт и загружаются один раз с этого сайта (мы размещаем их сами, без стороннего CDN) при первом выборе языка. После первоначальной загрузки модель кэшируется браузером, и всё дальнейшее распознавание для этого языка выполняется полностью офлайн.

Какие факторы больше всего влияют на точность OCR?

Разрешение скана (минимум 200 DPI, рекомендуется 300 DPI), чёткость изображения, контраст между текстом и фоном, а также ровность страницы сильно влияют на точность. Сильно сжатые JPEG-сканы, очень мелкий шрифт, страницы со смешанной ориентацией или сложными колоночными макетами являются наиболее частыми источниками ошибок распознавания.

OCR может читать рукописный текст?

tesseract.js обучен преимущественно на печатном тексте. Точность распознавания рукописного текста в целом низкая и ненадёжная, особенно для рукописного курсива. Для рукописных документов специализированные инструменты распознавания рукописного текста дают лучшие результаты.

Отсканированные документы куда-либо отправляются при извлечении текста?

Нет. После кэширования языковой модели каждая задача распознавания выполняется полностью в браузере с помощью tesseract.js. Отсканированные документы могут содержать личное или конфиденциальное содержимое; локальная обработка означает, что оно никогда не попадает на сервер.

Инструмент сохраняет макет оригинального скана?

Вывод - это поток обычного текста в порядке чтения. Таблицы, колонки, заголовки и другие элементы макета не сохраняются как структура; инструмент выводит только текстовое содержимое. Для вывода с сохранением макета требуется более продвинутый OCR-конвейер с анализом разметки.

Можно ли запустить OCR на PDF, уже содержащем выделяемый текст?

Инструмент может обрабатывать PDF на основе изображений, где каждая страница является растровым изображением без встроенного текста. Если ваш PDF уже имеет текстовый слой (можно выделять и копировать текст в программе просмотра), запуск OCR избыточен; существующий текстовый слой даёт ту же информацию без шага распознавания.

Могу ли я распознать текст (OCR) на фото, снятом телефоном?

Да, и tesseract.js работает в мобильных браузерах, так что вы можете открыть эту страницу даже на том телефоне, которым сделали снимок. Фото, снятые под углом или при неравномерном освещении, распознаются хуже, чем скан на планшетном сканере; выравнивание кадра и обрезка фона заранее помогают.

Нужно ли создавать аккаунт или платить, чтобы использовать OCR?

Нет. Регистрация не требуется, платы нет. Единственная загрузка - это одноразовая языковая модель, необходимая tesseract.js, разовая загрузка движка, а не подписка или платный доступ.