Без загрузки, 100% локально, без аккаунта

OCR, извлечь текст из изображений и PDF

Перетащите изображение или PDF и получите распознанный текст. OCR работает полностью в вашем браузере (на устройстве, офлайн после первой загрузки), ничего не загружается.

Как работает OCR · изображение/PDF в текст

OCR, оптическое распознавание символов, извлекает текст из отсканированных изображений и PDF на основе изображений и даёт вам результат, доступный для поиска и копирования. Sunasty запускает Tesseract через WebAssembly, так что движок распознавания размещён непосредственно на вашем устройстве.

Точность зависит от качества вашего скана и выбранного языка. Чёткие, контрастные сканы печатного текста на поддерживаемом языке обычно дают отличные результаты; рукописный текст, сканы низкого разрешения, страницы со сложной многоколоночной вёрсткой или смешанными системами письма распознаются менее точно. Всегда проверяйте результат, особенно имена, числа и технические термины. Для наилучшего результата сначала выпрямите скан с помощью инструмента PDF Deskew.

Часто задаваемые вопросы

Насколько точен OCR?

Точность зависит от качества скана, разрешения и языка. Печатный текст, отсканированный с разрешением 300 DPI или выше на хорошо поддерживаемом языке (английский, французский, немецкий, испанский и другие), обычно достигает высокой точности. Рукописный текст, низкоконтрастные сканы, необычные шрифты и нелатинские системы письма дадут больше ошибок. Всегда вычитывайте результат.

Какие языки поддерживаются?

Tesseract поддерживает более 100 языков через свою систему языковых пакетов. Sunasty загружает выбранные вами языковые данные прямо в ваш браузер; никакие данные не отправляются на сервер. Выберите правильный язык перед обработкой, несоответствующие языковые модели значительно снижают точность.

Может ли он извлечь текст из многостраничного PDF?

Да. Каждая страница распознаётся последовательно, и извлечённый текст собирается в один результат, страница за страницей. Время обработки растёт с числом страниц и сложностью каждой из них.

Загружаются ли мои файлы на сервер?

Нет. Распознавание выполняется движком Tesseract, скомпилированным в WebAssembly, в этой вкладке браузера; языковая модель (traineddata) один раз загружается с собственного источника Sunasty и кэшируется, затем ваш скан загружается в память вашего устройства, распознаётся там, и текст появляется локально. Ваши изображения никогда не передаются в Sunasty или третьим сторонам. Откройте DevTools браузера, перейдите на вкладку «Network» и смотрите: ни один запрос не несёт ваш скан.

Работает ли это офлайн?

Да, после загрузки страницы. Поскольку обработка происходит на вашем устройстве, вы можете отключиться от сети, и инструмент продолжит работать. Это самое наглядное доказательство того, что ваши данные никогда не покидают вашу машину.

Это бесплатно? Нужен ли аккаунт?

Это полностью бесплатно и не требует регистрации. Нет водяных знаков, нет дневных лимитов и не нужны отслеживающие cookie, чтобы пользоваться инструментом.