OCR, wyodrębnij tekst z obrazów i PDF

Upuść obraz lub PDF i uzyskaj rozpoznany tekst. OCR działa w całości w przeglądarce (na urządzeniu, offline po pierwszym załadowaniu), nic nie jest przesyłane.

Jak działa OCR · obraz/PDF do tekstu

OCR konwertuje zeskanowany obraz lub PDF oparty na obrazach na tekst, który można kopiować, przeszukiwać i edytować, używając tesseract.js działającego całkowicie wewnątrz przeglądarki. Wybierasz język dokumentu z selektora, odpowiedni model językowy pobiera się do przeglądarki raz, a wszystkie kolejne rozpoznania działają w trybie offline z tego buforowanego modelu. Twoje zeskanowane pliki nigdy nie są przesyłane na żaden serwer podczas konwersji.

Dokładność rozpoznawania zależy silnie od jakości skanu. Czyste, wysokie kontrastowe skany przy 200 DPI lub powyżej, z minimalnym szumem tła i prostą linią stron, dają najlepsze wyniki. Niewyraźne, niskorozdzielcze lub silnie skompresowane JPEG-i, strony z kolumnami lub złożonego układu oraz tekst odręczny zmniejszają dokładność. Narzędzie wyprowadza zwykły blok tekstowy; do strukturalnego wyjścia, takiego jak zachowane tabele lub układ wielokolumnowy, potrzebne jest postprzetwarzanie. Uruchomienie narzędzia do korekcji przekrzywienia PDF na krzywych skanach przed OCR zazwyczaj poprawia wskaźnik rozpoznawania.

Napisał Bastien Sulyan

OCR · obraz/PDF do tekstu: instrukcja krok po kroku

Upuść zeskanowany obraz (PNG, JPG, TIFF) lub PDF oparty na obrazach na obszar przesyłania.
Wybierz podstawowy język dokumentu z listy rozwijanej języków.
Jeśli używasz tego języka po raz pierwszy, poczekaj na pobranie modelu językowego (odbywa się to jednorazowo).
Kliknij wyodrębnij tekst i poczekaj, aż tesseract.js przetworzy każdą stronę.
Skopiuj rozpoznany tekst lub pobierz go jako zwykły plik tekstowy.

Typowe zastosowania

Zeskanowany paragon wymaga wyodrębnienia pozycji do arkusza kalkulacyjnego; uruchom OCR, aby uzyskać tekst, a następnie wklej go do oprogramowania księgowego.
Archiwum zeskanowanych artykułów z czasopism musi być możliwe do przeszukiwania tekstowo; przekonwertuj każdy na tekst z OCR do indeksowania.
Sfotografowana tablica ze spotkania zawiera notatki, które należy przekształcić w edytowalny dokument.
Historyczny zeskanowany dokument w języku niemieckim wymaga wyodrębnienia tekstu do tłumaczenia; przed uruchomieniem OCR wybierz język niemiecki.

Często zadawane pytania

Dlaczego przed działaniem OCR trzeba pobierać model językowy?

tesseract.js używa wytrenowanych plików danych sieci neuronowych specyficznych dla każdego języka. Pliki te mają kilka megabajtów każdy i są pobierane raz z tej strony (hostujemy je sami, bez zewnętrznego CDN) za pierwszym razem, gdy wybierasz ten język. Po początkowym pobraniu model jest buforowany przez przeglądarkę, a wszelkie dalsze rozpoznania dla tego języka działają całkowicie w trybie offline.

Co najbardziej wpływa na dokładność OCR?

Rozdzielczość skanu (minimum 200 DPI, zalecane 300 DPI), ostrość obrazu, kontrast między tekstem a tłem oraz prostota strony silnie wpływają na dokładność. Silnie skompresowane skany JPEG, bardzo małe czcionki i strony z mieszanymi orientacjami lub złożonego układu kolumnowego to najczęstsze źródła błędów rozpoznawania.

Czy OCR może czytać tekst odręczny?

tesseract.js jest przede wszystkim trenowany na drukowanym tekście. Dokładność rozpoznawania pisma ręcznego jest na ogół niska i zawodna, szczególnie w przypadku pisma kursywnego. W przypadku dokumentów odręcznie pisanych lepsze wyniki dają dedykowane narzędzia do rozpoznawania pisma ręcznego.

Czy moje zeskanowane dokumenty są gdzieś wysyłane podczas wyodrębniania tekstu?

Nie. Po buforowaniu modelu językowego każde zadanie rozpoznawania odbywa się całkowicie w przeglądarce za pomocą tesseract.js. Zeskanowane dokumenty mogą zawierać osobiste lub poufne treści; to wyłącznie lokalne przetwarzanie oznacza, że te treści nigdy nie trafiają na serwer.

Czy narzędzie zachowuje układ oryginalnego skanu?

Wynikiem jest zwykły strumień tekstowy w kolejności czytania. Tabele, kolumny, nagłówki i inne elementy układu nie są zachowane jako struktura; narzędzie wyprowadza tylko zawartość tekstową. Do wyjścia zachowującego układ wymagany jest bardziej zaawansowany potok OCR z analizą układu.

Czy mogę przeprowadzić OCR na PDF, który już zawiera możliwy do zaznaczenia tekst?

Narzędzie może przetwarzać PDF-y oparte na obrazach, gdzie każda strona jest obrazem rastrowym bez osadzonego tekstu. Jeśli Twój PDF ma już warstwę tekstową (możesz zaznaczać i kopiować tekst w przeglądarce), uruchomienie OCR jest zbędne; istniejąca warstwa tekstowa daje te same informacje bez kroku rozpoznawania.

Czy mogę uruchomić OCR na zdjęciu zrobionym telefonem?

Tak, a tesseract.js działa w przeglądarkach mobilnych, więc możesz otworzyć tę stronę nawet na telefonie, którym zrobiono zdjęcie. Zdjęcia zrobione pod kątem lub w nierównym oświetleniu rozpoznają się gorzej niż skan z płaskiego skanera; pomaga wcześniejsze wyprostowanie kadru i przycięcie tła.

Czy muszę założyć konto lub zapłacić, aby korzystać z OCR?

Nie. Nie ma rejestracji ani opłaty. Jedynym pobieraniem jest jednorazowy model językowy, którego potrzebuje tesseract.js, czyli jednorazowe pobranie silnika, a nie subskrypcja czy płatna blokada.

Powiązane narzędzia

Utrzymuj wszystko lokalnie, odkrywaj narzędzia uzupełniające.

Wszystkie narzędzia PDF