Bez przesyłania, 100% lokalnie, bez konta

OCR, wyodrębnij tekst z obrazów i PDF

Upuść obraz lub PDF i uzyskaj rozpoznany tekst. OCR działa w całości w przeglądarce (na urządzeniu, offline po pierwszym załadowaniu), nic nie jest przesyłane.

Jak działa OCR · obraz/PDF do tekstu

OCR, optyczne rozpoznawanie znaków, wyodrębnia tekst ze skanowanych obrazów i PDF-ów opartych na obrazach i daje w wyniku przeszukiwalny, możliwy do skopiowania tekst. Sunasty uruchamia Tesseract bezpośrednio w Twojej przeglądarce za pośrednictwem WebAssembly, więc silnik rozpoznawania jest hostowany samodzielnie na Twoim urządzeniu.

Dokładność zależy od jakości skanu i wybranego języka. Wyraźne, wysokiej kontrastowości skany drukowanego tekstu w obsługiwanym języku zazwyczaj dają doskonałe wyniki; pismo odręczne, skany o niskiej rozdzielczości, strony ze złożonym wielokolumnowym układem lub mieszanymi pismami będą mniej dokładne. Zawsze sprawdzaj wynik, szczególnie imiona, liczby i terminy techniczne. Aby uzyskać najlepsze rezultaty, najpierw wyprostuj skan za pomocą narzędzia PDF Deskew.

Często zadawane pytania

Jak dokładny jest OCR?

Dokładność zależy od jakości skanu, rozdzielczości i języka. Drukowany tekst zeskanowany przy 300 DPI lub wyższej rozdzielczości w dobrze obsługiwanym języku (angielskim, francuskim, niemieckim, hiszpańskim i innych) zazwyczaj osiąga wysoką dokładność. Pismo odręczne, skany o niskim kontraście, nietypowe czcionki i pisma niełacińskie będą powodować więcej błędów. Zawsze sprawdzaj wynik.

Które języki są obsługiwane?

Tesseract obsługuje ponad 100 języków za pośrednictwem systemu pakietów językowych. Sunasty ładuje wybrane przez Ciebie dane językowe bezpośrednio w przeglądarce; żadne dane nie są wysyłane na serwer. Przed przetwarzaniem wybierz właściwy język, niedopasowane modele językowe znacznie obniżają dokładność.

Czy może wyodrębniać tekst z wielostronicowego PDF-a?

Tak. Każda strona jest rozpoznawana kolejno, a wyodrębniony tekst jest składany w jeden wynik, strona po stronie. Czas przetwarzania skaluje się z liczbą stron i złożonością każdej z nich.

Czy moje pliki są przesyłane na serwer?

Nie. Rozpoznawanie działa na silniku Tesseract skompilowanym do WebAssembly, w tej karcie przeglądarki; model językowy (traineddata) jest pobierany raz z własnego źródła Sunasty i zapisywany w pamięci podręcznej, następnie Twój skan jest wczytywany do pamięci Twojego urządzenia, rozpoznawany na miejscu, a tekst pojawia się lokalnie. Twoje obrazy nigdy nie są przesyłane do Sunasty ani do osób trzecich. Otwórz DevTools przeglądarki, przejdź do karty „Network“ i obserwuj: żadne żądanie nie przenosi Twojego skanu.

Czy działa offline?

Tak, po załadowaniu strony. Ponieważ przetwarzanie odbywa się na Twoim urządzeniu, możesz odłączyć się od sieci, a narzędzie nadal będzie działać. To najlepszy dowód na to, że Twoje dane nigdy nie opuszczają Twojej maszyny.

Czy to bezpłatne? Czy potrzebuję konta?

Jest całkowicie bezpłatne i nie wymaga rejestracji. Nie ma żadnych znaków wodnych, dziennych limitów ani ciasteczek śledzących potrzebnych do korzystania z narzędzia.