OCR, extrahovat text z obrázků a PDF

Přetáhněte obrázek nebo PDF a získejte rozpoznaný text. OCR běží zcela v prohlížeči (v zařízení, offline po prvním načtení), nic se nenahrává.

Jak OCR · obrázek/PDF na text funguje

OCR převádí naskenovaný obrázek nebo PDF založené na obrázcích na text, který můžete kopírovat, vyhledávat a upravovat, pomocí tesseract.js běžícího zcela uvnitř vašeho prohlížeče. Zvolíte jazyk dokumentu z voliče, příslušný jazykový model se stáhne do vašeho prohlížeče jednou a veškeré následné rozpoznávání probíhá offline z tohoto cachovaného modelu. Vaše naskenované soubory nejsou při konverzi nikdy přeneseny na žádný server.

Přesnost rozpoznávání silně závisí na kvalitě skenu. Čisté skeny s vysokým kontrastem při 200 DPI nebo více, s minimálním šumem pozadí a rovným zarovnáním stránek, dosahují nejlepších výsledků. Rozmazané, nízkorozlišovací nebo silně komprimované JPEG, stránky se sloupci nebo složitým rozvržením a ručně psaný text všechny snižují přesnost. Nástroj vydává blok obyčejného textu; pro strukturovaný výstup jako zachované tabulky nebo vícesloupkové rozvržení je nutné post-zpracování. Spuštění nástroje PDF Deskew na křivých skenech před OCR typicky zlepšuje míru rozpoznávání.

Napsal Bastien Sulyan

OCR · obrázek/PDF na text: návod krok za krokem

Přetáhněte svůj naskenovaný obrázek (PNG, JPG, TIFF) nebo PDF založený na obrázcích do oblasti pro nahrání.
Vyberte primární jazyk dokumentu z rozevíracího seznamu jazyků.
Pokud je to poprvé, co používáte tento jazyk, počkejte na stažení jazykového modelu (stane se jednou).
Klikněte na extrahovat text a počkejte, až tesseract.js zpracuje každou stránku.
Zkopírujte rozpoznaný text nebo ho stáhněte jako soubor obyčejného textu.

Časté případy použití

Naskenovaná účtenka potřebuje své položky extrahované do tabulky; spusťte OCR pro získání textu a pak ho vložte do účetního softwaru.
Archiv naskenovaných článků z časopisu potřebuje být textově prohledávatelný; převeďte každý na text pomocí OCR pro indexování.
Fotografovaná tabule z porady obsahuje poznámky, které je třeba převést na editovatelný dokument.
Historicky naskenovaný dokument v němčině potřebuje svůj text extrahovat pro přeložení; před spuštěním OCR vyberte němčinu jako jazyk.

Často kladené otázky

Proč musím stahovat jazykový model předtím, než OCR funguje?

tesseract.js používá trénované soubory dat neuronové sítě specifické pro každý jazyk. Tyto soubory mají každý několik megabajtů a jsou staženy jednou z tohoto webu (hostujeme je sami, bez CDN třetí strany) při prvním výběru tohoto jazyka. Po počátečním stažení je model uložen do cache vašeho prohlížeče a veškeré další rozpoznávání pro tento jazyk probíhá zcela offline.

Jaké faktory nejvíce ovlivňují přesnost OCR?

Rozlišení skenu (minimum 200 DPI, doporučené 300 DPI), ostrost obrázku, kontrast mezi textem a pozadím a to, zda je stránka rovná, všechny silně ovlivňují přesnost. Silně komprimované JPEG skeny, velmi malé fonty a stránky se smíšenou orientací nebo složitým sloupcovým rozvržením jsou nejběžnějšími příčinami chyb rozpoznávání.

Může OCR číst ručně psaný text?

tesseract.js je trénován především na tištěném textu. Přesnost rozpoznávání rukopisu je obecně nízká a nespolehlivá, zvláště pro kurzivní písmo. Pro ručně psané dokumenty produkují lepší výsledky vyhrazené nástroje pro rozpoznávání rukopisu.

Jsou moje naskenované dokumenty kamkoli odesílané při extrakci textu?

Ne. Po uložení jazykového modelu do cache každý úkol rozpoznávání probíhá zcela ve vašem prohlížeči pomocí tesseract.js. Naskenované dokumenty mohou obsahovat osobní nebo důvěrný obsah; toto lokální zpracování znamená, že tento obsah nikdy nedosáhne serveru.

Zachovává nástroj rozvržení původního skenu?

Výstup je obyčejný textový proud v pořadí čtení. Tabulky, sloupce, záhlaví a další prvky rozvržení nejsou zachovány jako struktura; nástroj vydává pouze textový obsah. Pro výstup zachovávající rozvržení je vyžadována pokročilejší pipeline OCR s analýzou rozvržení.

Mohu použít OCR na PDF, které už obsahuje vybíratelný text?

Nástroj může zpracovávat PDF založené na obrázcích, kde každá stránka je rastrový obrázek bez vestavěného textu. Pokud vaše PDF již má textovou vrstvu (můžete vybrat a kopírovat text v prohlížeči), spouštění OCR je zbytečné; stávající textová vrstva vám poskytuje stejné informace bez kroku rozpoznávání.

Mohu spustit OCR na fotografii pořízené telefonem?

Ano, tesseract.js funguje v mobilních prohlížečích, takže tuto stránku můžete otevřít i na telefonu, kterým jste fotografii pořídili. Fotografie pořízené šikmo nebo v nerovnoměrném osvětlení se rozpoznávají hůř než skenování na plochém skeneru; pomůže, když snímek nejprve narovnáte a oříznete pozadí.

Potřebuji si vytvořit účet nebo platit za používání OCR?

Ne. Není potřeba žádná registrace ani poplatek. Jediné, co se stahuje, je jednorázový jazykový model, který tesseract.js potřebuje, tedy jednorázové stažení enginu, ne předplatné nebo placená zeď.

Související nástroje

Zachovejte vše lokálně, prozkoumejte doplňkové nástroje.

Všechny PDF nástroje