OCR, извличане на текст от изображения и PDF файлове

Пуснете изображение или PDF и получете разпознатия текст. OCR работи изцяло в браузъра ви (на устройството, офлайн след първото зареждане), нищо не се качва.

Как работи OCR · изображение/PDF към текст

OCR преобразува сканирано изображение или PDF на базата на изображения в текст, който можете да копирате, търсите и редактирате, използвайки tesseract.js, работещ изцяло в браузъра ви. Избирате езика на документа от селектора, съответният езиков модел се изтегля в браузъра ви веднъж, а всички последващи разпознавания работят офлайн от кеширания модел. Сканираните ви файлове никога не се предават на сървър по време на конвертирането.

Точността на разпознаването зависи силно от качеството на сканирането. Чисти сканирания с висок контраст при 200 DPI или повече, с минимален фонов шум и изправено наравняване на страниците, дават най-добри резултати. Замъглени, нискорезолюционни или силно компресирани JPEG изображения, страниците с колони или сложни оформления и ръкопис намаляват точността. Инструментът извежда блок от обикновен текст; за структуриран изход като запазени таблици или многоколонно оформление е необходима допълнителна обработка. Провеждането на PDF Deskew на наклонени сканирания преди OCR обикновено подобрява степента на разпознаване.

Написано от Bastien Sulyan

Как да използвате OCR · изображение/PDF към текст, стъпка по стъпка

Пуснете сканираното изображение (PNG, JPG, TIFF) или PDF на базата на изображения върху зоната за качване.
Изберете основния език на документа от падащото меню за езика.
Ако използвате езика за първи път, изчакайте езиковият модел да се изтегли (това се случва веднъж).
Натиснете extract text и изчакайте tesseract.js да обработи всяка страница.
Копирайте разпознатия текст или го изтеглете като файл с обикновен текст.

Често срещани приложения

Сканирана разписка се нуждае от извлечени артикули в електронна таблица; изпълнете OCR, за да получите текста, след което го поставете в счетоводния си софтуер.
Архив от сканирани статии трябва да стане търсим по текст; конвертирайте всяка в текст с OCR за индексиране.
Снимана дъска от среща съдържа бележки, които трябва да бъдат превърнати в редактируем документ.
Исторически сканиран документ на немски се нуждае от извлечен текст за превод; изберете немски като език преди стартиране на OCR.

Често задавани въпроси

Защо трябва да изтегля езиков модел преди OCR да работи?

tesseract.js използва тренирани файлове с данни от невронни мрежи, специфични за всеки език. Тези файлове са с размер от няколко мегабайта всеки и се изтеглят веднъж от този сайт (хостваме ги сами, без CDN на трета страна) при първото избиране на езика. След началното изтегляне моделът се кешира от браузъра ви и всички последващи разпознавания за този език работят напълно офлайн.

Кои фактори най-много влияят на точността на OCR?

Резолюцията на сканирането (минимум 200 DPI, препоръчително 300 DPI), остротата на изображението, контрастът между текст и фон, и дали страницата е права - всички те силно влияят на точността. Силно компресираните JPEG сканирания, много малките шрифтове и страниците със смесени ориентации или сложни колонни оформления са най-честите източници на грешки при разпознаването.

Може ли OCR да чете ръкописен текст?

tesseract.js е обучен предимно върху печатен текст. Точността при разпознаване на ръкопис е като цяло ниска и ненадеждна, особено за курсивно писмо. За ръкописни документи специализираните инструменти за разпознаване на ръкопис дават по-добри резултати.

Изпращат ли се сканираните документи някъде при извличането на текст?

Не. След кеширането на езиковия модел, всяка задача за разпознаване се извършва изцяло в браузъра ви с tesseract.js. Сканираните документи могат да съдържат лично или поверително съдържание; тази само-локална обработка означава, че съдържанието никога не достига сървър.

Запазва ли инструментът оформлението на оригиналното сканиране?

Изходният файл е поток от обикновен текст в реда на четене. Таблиците, колоните, заглавките и другите елементи на оформлението не се запазват като структура; инструментът извежда само текстовото съдържание. За изход, запазващ оформлението, се изисква по-напреднал OCR тръбопровод с анализ на оформлението.

Мога ли да приложа OCR на PDF, съдържащ вече избираем текст?

Инструментът може да обработва PDF на базата на изображения, при които всяка страница е растерно изображение без вграден текст. Ако PDF ви вече има текстов слой (можете да избирате и копирате текст в програма за преглед), провеждането на OCR е ненужно; съществуващият текстов слой ви дава същата информация без стъпката на разпознаване.

Мога ли да пусна OCR на снимка, направена с телефона си?

Да, а tesseract.js работи в мобилни браузъри, така че можете дори да отворите тази страница на телефона, направил снимката. Снимки, направени под ъгъл или при неравномерно осветление, се разпознават по-зле от сканиране на плосък скенер; изправянето на кадъра и изрязването на фона предварително помагат.

Трябва ли да създам акаунт или да платя, за да използвам OCR?

Не. Няма регистрация и няма такса. Единственото включено изтегляне е еднократният езиков модел, от който tesseract.js се нуждае - еднократно изтегляне на двигателя, а не абонамент или платена стена.

Свързани инструменти

Пазете всичко локално, разгледайте допълнителни инструменти.

Всички PDF инструменти