Návod

Extrahujte text ze skenovaného PDF

Skenované PDF je v podstatě fotografie stránky: text vypadá správně, ale nelze jej vybrat, vyhledat ani zkopírovat, protože je uložen jako pixely, ne jako znaky. Optické rozpoznávání znaků (OCR) tyto pixely převede zpět na skutečný text, který můžete vložit do dokumentu, vyhledat pomocí Ctrl+F nebo zaindexovat pro pozdější použití. Tento průvodce používá OCR engine přímo v zařízení, takže váš sken nikdy neopustí váš počítač.

Krok za krokem

Otevřete nástroj OCR a přetáhněte do něj svůj skenovaný PDF nebo obrázkový soubor. Nástroj přijímá PDF, PNG, JPEG, WebP a několik dalších obrázkových formátů. Pro vícestránkový sken je formát PDF tím nejpohodlnějším jediným vstupem.
Vyberte jazyk textu v dokumentu. Výchozí je angličtina. Volba správného jazyka pomáhá OCR enginu vybrat správné tvary znaků a zvyšuje přesnost u písmen s diakritikou a interpunkce specifické pro daný jazyk.
Klikněte na Spustit a počkejte, až OCR dokončí. Engine (Tesseract, zkompilovaný do WebAssembly) běží zcela ve vašem prohlížeči. Zpracování jediné stránky A4 zabere na moderním zařízení několik sekund. Výsledkem je soubor s prostým textem, který můžete stáhnout a kopírovat z něj.

Jak kvalita OCR závisí na kvalitě skenu

Přesnost OCR je dána především kvalitou vstupu. Čistý sken na 300 DPI z tištěného dokumentu (výstup z laserové tiskárny nebo kopírky) přinese téměř dokonalé výsledky. Rozmazaná fotka z telefonu pořízená pod úhlem za špatného osvětlení dá mnohem horší výstup s chybně přečtenými znaky, slepenými slovy a chybějícími řádky. Pokud jsou vaše výsledky slabé, zkuste zdrojový sken vylepšit: fotografujte přímo zepředu, za dobrého světla a stránku držte rovnou. Nástroj na narovnání PDF dokáže narovnat mírně pootočený sken, než na něm spustíte OCR.

Co s extrahovaným textem dělat

Výstupem je soubor s prostým textem s rozpoznanými znaky v pořadí čtení. Můžete jej vložit do textového procesoru, vyhledat v něm, přeložit jej nebo použít jako výchozí bod pro upravený dokument. Pro vyhledatelné PDF (původní obrázek stránky s neviditelnou textovou vrstvou navrch) byste obvykle použili specializovaný desktopový software jako Adobe Acrobat nebo OCRmyPDF: nástroj v zařízení zde produkuje pouze prostý text, což je to, co většina případů použití ve skutečnosti potřebuje.

Nástroje použité v tomto návodu

Časté dotazy

Nahrává se můj sken na vzdálený server?

Ne. Tesseract je zkompilovaný do WebAssembly a běží přímo uvnitř záložky vašeho prohlížeče. Jazykový model (zhruba 4 MB u rychlého anglického modelu) se z tohoto webu stáhne jednou a poté zůstane v mezipaměti pro offline použití. Váš soubor se načte z vašeho lokálního disku a zpracuje v paměti: nikdy se neodesílá na žádný server. Na tom záleží obzvlášť u skenovaných smluv, lékařských dokumentů nebo osobní korespondence.

Proč je výstup OCR u mého dokumentu nedokonalý?

Chyby OCR pramení z kvality skenu (nízké rozlišení, rozostření, zkosení, stíny) nebo z neobvyklých písem a rozvržení. Pokud stránka není dokonale rovná, vyzkoušejte nejprve nástroj na narovnání. U ručně psaného textu přesnost Tesseractu výrazně klesá: je trénovaný na tištěných znacích, ne na rukopisu. U smíšených dokumentů (tištěný text plus ruční podpis) vyjdou tištěné části obvykle správně a ručně psané části budou zkomolené nebo vynechané.