Без завантаження, 100% локально, без облікового запису

OCR, видобути текст із зображень та PDF

Перетягніть зображення чи PDF і отримайте розпізнаний текст. OCR працює повністю у вашому браузері (на пристрої, офлайн після першого завантаження), нічого не завантажується.

Як працює OCR · зображення/PDF у текст

OCR, оптичне розпізнавання символів, витягує текст зі сканованих зображень та PDF на основі зображень і дає вам пошуковий, копіюваний результат. Sunasty запускає Tesseract через WebAssembly, тож двигун розпізнавання самостійно розміщений і виконується безпосередньо у вкладці.

Точність залежить від якості вашого скану та вибраної мови. Чіткі, контрастні скани друкованого тексту підтримуваною мовою зазвичай дають чудові результати; рукописний текст, скани з низькою роздільною здатністю, сторінки зі складними багатоколонковими макетами чи змішаними системами письма будуть менш точними. Завжди переглядайте результат, особливо щодо імен, чисел і технічних термінів. Для найкращих результатів спершу вирівняйте скан за допомогою інструмента PDF Deskew.

Поширені запитання

Наскільки точний цей OCR?

Точність змінюється залежно від якості скану, роздільної здатності та мови. Друкований текст, відсканований з роздільною здатністю 300 DPI або вище добре підтримуваною мовою (англійська, французька, німецька, іспанська та інші), зазвичай досягає високої точності. Рукописний текст, скани з низьким контрастом, незвичні шрифти та нелатинські системи письма дадуть більше помилок. Завжди вичитуйте результат.

Які мови підтримуються?

Tesseract підтримує понад 100 мов через свою систему мовних пакетів. Sunasty завантажує вибрані вами мовні дані безпосередньо у вашому браузері; жодні дані не надсилаються на сервер. Виберіть правильну мову перед обробкою, невідповідні мовні моделі значно знижують точність.

Чи може воно витягти текст із багатосторінкового PDF?

Так. Кожна сторінка розпізнається послідовно, а витягнутий текст збирається в один результат, сторінка за сторінкою. Час обробки масштабується залежно від кількості сторінок та складності кожної з них.

Чи завантажуються мої файли на сервер?

Ні. Розпізнавання виконується рушієм Tesseract, скомпільованим у WebAssembly, у цій вкладці браузера; мовна модель (traineddata) один раз завантажується з власного джерела Sunasty і кешується, потім ваш скан завантажується в пам'ять вашого пристрою, розпізнається там, і текст з'являється локально. Ваші зображення ніколи не передаються до Sunasty чи третіх сторін. Відкрийте DevTools браузера, перейдіть на вкладку «Network» і спостерігайте: жоден запит не несе ваш скан.

Чи працює це офлайн?

Так, після завантаження сторінки. Оскільки обробка відбувається на вашому пристрої, ви можете відключитися від мережі, і інструмент продовжить працювати. Це найочевидніший доказ того, що ваші дані ніколи не залишають вашу машину.

Чи це безкоштовно? Чи потрібен обліковий запис?

Це повністю безкоштовно і не потребує реєстрації. Немає водяних знаків, немає денних лімітів і немає потреби у відстежувальних файлах cookie для користування інструментом.