Без качване, 100% локално, без акаунт

OCR, извличане на текст от изображения и PDF файлове

Пуснете изображение или PDF и получете разпознатия текст. OCR работи изцяло в браузъра ви (на устройството, офлайн след първото зареждане), нищо не се качва.

Как работи OCR · изображение/PDF към текст

OCR, Оптично разпознаване на символи, извлича текст от сканирани изображения и PDF файлове на базата на изображения и ви дава търсим, копируем резултат. Sunasty изпълнява Tesseract чрез WebAssembly, така че двигателят за разпознаване е самостоятелно хостван.

Точността зависи от качеството на сканирането и избрания език. Ясните, високо-контрастни сканирания на печатен текст на поддържан език обикновено дават отлични резултати; ръкописен текст, сканирания с ниска разделителна способност, страници с комплексни многоколонни оформления или смесени писмени системи ще бъдат по-малко точни. Винаги преглеждайте изхода, особено за имена, числа и технически термини. За най-добри резултати първо изравнете сканирането с инструмента PDF Deskew.

Често задавани въпроси

Колко точен е OCR?

Точността варира в зависимост от качеството на сканиране, разделителната способност и езика. Печатен текст, сканиран при 300 DPI или повече на добре поддържан език (английски, френски, немски, испански и други), обикновено постига висока точност. Ръкописен текст, сканирания с нисък контраст, необичайни шрифтове и нелатински писмени системи ще произведат повече грешки. Винаги проверявайте изхода.

Кои езици се поддържат?

Tesseract поддържа над 100 езика чрез системата си за езикови пакети. Sunasty зарежда езиковите данни, които изберете, директно в браузъра ви; никакви данни не се изпращат на сървър. Изберете правилния език преди обработка, несъответстващите езикови модели значително намаляват точността.

Може ли да извлича текст от многостраничен PDF?

Да. Всяка страница се разпознава последователно и извлеченият текст се събира в един изход, страница по страница. Времето за обработка нараства с броя на страниците и сложността на всяка от тях.

Качват ли се файловете ми на сървър?

Не. Разпознаването работи с двигателя Tesseract, компилиран към WebAssembly, в този раздел на браузъра; езиковият модел (traineddata) се изтегля веднъж от собствения източник на Sunasty и се кешира, след което сканираното от вас се зарежда в паметта на устройството ви, разпознава се там, и текстът се показва локално. Вашите изображения никога не се предават към Sunasty или трети страни. Отворете DevTools на браузъра, отидете в раздела «Network» и наблюдавайте: нито една заявка не носи сканираното от вас.

Работи ли офлайн?

Да, след като страницата се е заредила. Тъй като обработката се извършва на вашето устройство, можете да се изключите от мрежата и инструментът продължава да работи. Това е най-ясното доказателство, че данните ви никога не напускат вашата машина.

Безплатен ли е? Нужен ли ми е акаунт?

Напълно безплатен е и не изисква регистрация. Няма водни знаци, дневни ограничения или необходими проследяващи бисквитки за използване на инструмента.