Інструкція

Вилучити текст зі сканованого PDF

Сканований PDF це по суті фотографія сторінки: текст виглядає правильно, але його не можна виділити, шукати чи копіювати, бо він зберігається як пікселі, а не символи. Оптичне розпізнавання символів (OCR) перетворює ці пікселі назад на справжній текст, який ви можете вставити в документ, шукати через Ctrl+F чи проіндексувати на потім. Цей посібник використовує рушій OCR на пристрої, тож ваш скан ніколи не залишає ваш комп'ютер.

Крок за кроком

Відкрийте інструмент OCR і перетягніть туди свій сканований PDF чи файл зображення. Інструмент приймає PDF, PNG, JPEG, WebP та кілька інших форматів зображень. Для багатосторінкового скану формат PDF це найзручніший єдиний ввід.
Виберіть мову тексту в документі. За замовчуванням це англійська. Вибір правильної мови допомагає рушію OCR обрати правильні форми символів і підвищує точність на літерах з наголосами та специфічній для локалі пунктуації.
Натисніть «Виконати» й зачекайте на завершення OCR. Рушій (Tesseract, скомпільований у WebAssembly) працює цілком у вашому браузері. Обробка однієї сторінки A4 займає кілька секунд на сучасному пристрої. Результат це файл звичайного тексту, який ви можете завантажити й скопіювати.

Як якість OCR залежить від якості скану

Точність OCR головно визначається якістю вводу. Чистий скан на 300 DPI друкованого документа (вивід лазерного принтера чи копіювального апарата) дасть майже ідеальні результати. Розмите фото з телефона, зроблене під кутом за поганого освітлення, дасть значно гірший вивід із неправильно прочитаними символами, злитими словами й пропущеними рядками. Якщо результати слабкі, спробуйте покращити вихідний скан: фотографуйте прямо, за гарного світла й тримаючи сторінку рівно. Інструмент вирівнювання PDF може випрямити трохи повернутий скан, перш ніж ви запустите на ньому OCR.

Що робити з вилученим текстом

Вивід це файл звичайного тексту з розпізнаними символами в порядку читання. Ви можете вставити його в текстовий процесор, шукати в ньому, перекласти чи використати як відправну точку для відредагованого документа. Для PDF із можливістю пошуку (оригінальне зображення сторінки з накладеним невидимим шаром тексту) ви зазвичай скористалися б спеціалізованим настільним програмним забезпеченням на кшталт Adobe Acrobat чи OCRmyPDF: інструмент на пристрої тут видає лише звичайний текст, а це саме те, що насправді потрібне більшості випадків.

Інструменти з цього гайда

Поширені запитання

Чи вивантажується мій скан на віддалений сервер?

Ні. Tesseract скомпільований у WebAssembly й працює прямо всередині вкладки вашого браузера. Мовна модель (близько 4 МБ для швидкої англійської моделі) завантажується з цього сайту один раз, а потім лишається в кеші для офлайн-використання. Ваш файл зчитується з локального диска й обробляється в пам'яті: він ніколи не надсилається на жоден сервер. Це особливо важливо для сканованих договорів, медичних документів чи особистого листування.

Чому вивід OCR недосконалий на моєму документі?

Помилки OCR походять від якості скану (низька роздільність, розмиття, перекіс, тіні) чи від незвичних шрифтів і компонувань. Спершу спробуйте інструмент вирівнювання, якщо сторінка не ідеально рівна. Для рукописного тексту точність Tesseract суттєво падає: він навчений на друкованих символах, а не на почерку. Для змішаних документів (друкований текст плюс рукописний підпис) друковані частини зазвичай вийдуть правильно, а рукописні будуть спотворені чи пропущені.