Instrukcja

Wyodrębnij tekst ze zeskanowanego PDF

Zeskanowany PDF to w istocie fotografia strony: tekst wygląda dobrze, ale nie da się go zaznaczyć, przeszukać ani skopiować, ponieważ jest zapisany jako piksele, a nie znaki. Optyczne rozpoznawanie znaków (OCR) zamienia te piksele z powrotem na rzeczywisty tekst, który możesz wkleić do dokumentu, przeszukać za pomocą Ctrl+F lub zaindeksować na później. Ten przewodnik używa silnika OCR działającego na urządzeniu, więc Twój skan nigdy nie opuszcza komputera.

Krok po kroku

Otwórz narzędzie OCR i przeciągnij do niego zeskanowany plik PDF lub obraz. Narzędzie przyjmuje PDF, PNG, JPEG, WebP i kilka innych formatów obrazu. Dla skanu wielostronicowego format PDF jest najwygodniejszym pojedynczym wejściem.
Wybierz język tekstu w dokumencie. Domyślnym jest angielski. Wybór poprawnego języka pomaga silnikowi OCR dobrać właściwe kształty znaków i poprawia dokładność na literach z akcentami oraz interpunkcji charakterystycznej dla danej lokalizacji.
Kliknij Uruchom i poczekaj na zakończenie OCR. Silnik (Tesseract, skompilowany do WebAssembly) działa w całości w Twojej przeglądarce. Przetworzenie pojedynczej strony A4 zajmuje kilka sekund na nowoczesnym urządzeniu. Wynikiem jest plik zwykłego tekstu, który możesz pobrać i z którego możesz kopiować.

Jak jakość OCR zależy od jakości skanu

Dokładność OCR zależy przede wszystkim od jakości wejścia. Czysty skan w rozdzielczości 300 DPI dokumentu drukowanego (wydruk z drukarki laserowej lub kserokopiarki) da niemal idealne wyniki. Rozmazane zdjęcie z telefonu zrobione pod kątem przy słabym oświetleniu da znacznie gorszy wynik, z błędnie odczytanymi znakami, sklejonymi słowami i brakującymi wierszami. Jeśli Twoje wyniki są słabe, spróbuj poprawić skan źródłowy: zrób zdjęcie na wprost, w dobrym świetle, trzymając stronę płasko. Narzędzie do prostowania PDF może wyprostować lekko obrócony skan, zanim uruchomisz na nim OCR.

Co zrobić z wyodrębnionym tekstem

Wynikiem jest plik zwykłego tekstu z rozpoznanymi znakami w kolejności czytania. Możesz wkleić go do edytora tekstu, przeszukać, przetłumaczyć lub użyć jako punkt wyjścia do edytowanego dokumentu. Aby uzyskać przeszukiwalny PDF (oryginalny obraz strony z nałożoną niewidoczną warstwą tekstu), zwykle użyłbyś dedykowanego oprogramowania desktopowego, takiego jak Adobe Acrobat lub OCRmyPDF: tutejsze narzędzie działające na urządzeniu zwraca wyłącznie zwykły tekst, czego potrzebuje większość rzeczywistych zastosowań.

Narzędzia użyte w tym poradniku

Najczęściej zadawane pytania

Czy mój skan jest wysyłany na zdalny serwer?

Nie. Tesseract jest skompilowany do WebAssembly i działa bezpośrednio w karcie Twojej przeglądarki. Model językowy (około 4 MB dla szybkiego modelu angielskiego) pobiera się z tej strony raz, a potem pozostaje w pamięci podręcznej do użytku offline. Twój plik jest wczytywany z lokalnego dysku i przetwarzany w pamięci: nigdy nie jest wysyłany na żaden serwer. Ma to szczególne znaczenie przy zeskanowanych umowach, dokumentach medycznych czy korespondencji osobistej.

Dlaczego wynik OCR jest niedoskonały na moim dokumencie?

Błędy OCR biorą się z jakości skanu (niska rozdzielczość, rozmycie, przekrzywienie, cienie) lub z nietypowych krojów pisma i układów. Wypróbuj najpierw narzędzie do prostowania, jeśli strona nie jest idealnie prosta. Dla tekstu odręcznego dokładność Tesseract znacznie spada: jest trenowany na znakach drukowanych, a nie na piśmie odręcznym. Dla dokumentów mieszanych (tekst drukowany plus odręczny podpis) części drukowane zwykle wyjdą poprawnie, a części odręczne będą zniekształcone lub pominięte.