OCR, видобути текст із зображень та PDF

Перетягніть зображення чи PDF і отримайте розпізнаний текст. OCR працює повністю у вашому браузері (на пристрої, офлайн після першого завантаження), нічого не завантажується.

Як працює OCR · зображення/PDF у текст

OCR конвертує відскановане зображення або PDF на основі зображення у текст, який можна скопіювати, знайти в пошуку та відредагувати, використовуючи tesseract.js, що працює повністю у вашому браузері. Ви обираєте мову документа з селектора, відповідна мовна модель завантажується до вашого браузера один раз, і всі наступні розпізнавання виконуються офлайн з тієї кешованої моделі. Ваші відскановані файли ніколи не передаються на жодний сервер під час конвертації.

Точність розпізнавання суттєво залежить від якості сканування. Чисті, контрастні скани з роздільною здатністю 200 DPI і вище, з мінімальним фоновим шумом і рівним вирівнюванням сторінок, дають найкращі результати. Розмиті, низькороздільні або сильно стислі JPEG, сторінки з колонками або складними макетами, а також рукописний текст знижують точність. Інструмент виводить блок звичайного тексту; для структурованого виводу, як-от збережених таблиць або багатоколонного макету, потрібна постобробка. Запускання інструмента PDF Deskew на кривих сканах перед OCR зазвичай покращує показники розпізнавання.

Автор: Bastien Sulyan

OCR · зображення/PDF у текст: покрокова інструкція

Перетягніть відскановане зображення (PNG, JPG, TIFF) або PDF на основі зображення у зону завантаження.
Оберіть основну мову документа зі спадного списку мов.
Якщо ви вперше використовуєте цю мову, зачекайте завантаження мовної моделі (це відбувається один раз).
Натисніть «Витягти текст» і зачекайте, поки tesseract.js обробить кожну сторінку.
Скопіюйте розпізнаний текст або завантажте його як звичайний текстовий файл.

Поширені сценарії використання

З відсканованого чека потрібно витягнути рядки позицій до таблиці; запустіть OCR, щоб отримати текст, і вставте його до свого бухгалтерського програмного забезпечення.
Архів відсканованих журнальних статей потрібно зробити придатним для текстового пошуку; конвертуйте кожну у текст за допомогою OCR для індексування.
Сфотографована дошка з нотатками наради містить записи, які потрібно перетворити на редагований документ.
Старовинний відсканований документ німецькою мовою потребує витягування тексту для перекладу; оберіть German як мову перед запуском OCR.

Поширені запитання

Навіщо завантажувати мовну модель перед тим, як OCR запрацює?

tesseract.js використовує навчені файли нейромережевих даних, специфічні для кожної мови. Ці файли мають кілька мегабайт кожен і завантажуються один раз із цього сайту (ми розміщуємо їх самі, без стороннього CDN) при першому виборі мови. Після першого завантаження модель кешується вашим браузером, і всі наступні розпізнавання для цієї мови виконуються повністю офлайн.

Які чинники найбільше впливають на точність OCR?

Роздільна здатність сканування (мінімум 200 DPI, рекомендовано 300 DPI), різкість зображення, контраст між текстом і фоном, а також рівність сторінки - все це суттєво впливає на точність. Сильно стислі JPEG-скани, дуже дрібний шрифт і сторінки з змішаними орієнтаціями або складними колонковими макетами є найпоширенішими джерелами помилок розпізнавання.

Чи може OCR розпізнавати рукописний текст?

tesseract.js навчений переважно на друкованому тексті. Точність розпізнавання рукопису загалом низька і ненадійна, особливо для рукописного письма. Для рукописних документів спеціалізовані інструменти розпізнавання рукопису дають кращі результати.

Чи надсилаються мої відскановані документи кудись під час витягування тексту?

Ні. Після кешування мовної моделі кожне завдання розпізнавання виконується повністю у вашому браузері за допомогою tesseract.js. Відскановані документи можуть містити особисті або конфіденційні відомості; ця локальна обробка означає, що такий вміст ніколи не потрапляє на сервер.

Чи зберігає інструмент макет оригінального сканування?

Вивід є звичайним текстовим потоком у порядку читання. Таблиці, колонки, заголовки та інші елементи макету не зберігаються як структура; інструмент виводить лише текстовий вміст. Для виводу зі збереженням макету потрібен більш просунутий конвеєр OCR з аналізом макету.

Чи можна запустити OCR на PDF, який вже містить виділяємий текст?

Інструмент може обробляти PDF на основі зображення, де кожна сторінка є растровим зображенням без вбудованого тексту. Якщо ваш PDF вже має текстовий шар (ви можете виділяти і копіювати текст у переглядачі), запуск OCR є зайвим; наявний текстовий шар дає вам ту саму інформацію без кроку розпізнавання.

Чи можна запустити OCR на фото, зробленому телефоном?

Так, і tesseract.js працює в мобільних браузерах, тому можна навіть відкрити цю сторінку на тому самому телефоні, яким зроблено знімок. Фото, зняті під кутом або за нерівномірного освітлення, розпізнаються гірше, ніж скан на планшетному сканері; вирівнювання знімка і обрізання фону заздалегідь допомагають.

Чи потрібно створювати обліковий запис або платити, щоб користуватися OCR?

Ні. Немає реєстрації і немає плати. Єдине завантаження, що тут задіяне, - це одноразова мовна модель, потрібна tesseract.js, разове завантаження двигуна, а не підписка чи платний доступ.

Схожі інструменти

Тримайте все локально, досліджуйте додаткові інструменти.

Усі PDF-інструменти