Tiada muat naik, 100% setempat, tiada akaun

OCR, ekstrak teks daripada imej & PDF

Lepaskan imej atau PDF dan dapatkan teks yang dikenali. OCR berjalan sepenuhnya dalam pelayar anda (pada peranti, luar talian selepas muatan pertama), tiada apa dimuat naik.

Cara OCR · imej/PDF ke teks berfungsi

OCR, Optical Character Recognition, mengekstrak teks daripada imej imbasan dan PDF berasaskan imej serta memberi anda hasil yang boleh dicari dan boleh disalin. Sunasty menjalankan Tesseract terus dalam pelayar anda melalui WebAssembly, jadi enjin pengecaman dihos sendiri pada peranti anda.

Ketepatan bergantung pada kualiti imbasan anda dan bahasa yang dipilih. Imbasan teks bercetak yang jelas dan berkontras tinggi dalam bahasa yang disokong biasanya menghasilkan keputusan yang cemerlang; tulisan tangan, imbasan resolusi rendah, halaman dengan susun atur berbilang lajur yang kompleks atau skrip bercampur akan kurang tepat. Sentiasa semak output, terutamanya untuk nama, nombor dan istilah teknikal. Untuk keputusan terbaik, deskew imbasan dahulu dengan alat PDF Deskew.

Soalan lazim

Berapa tepatkah OCR ini?

Ketepatan berbeza-beza mengikut kualiti imbasan, resolusi dan bahasa. Teks bercetak yang diimbas pada 300 DPI atau lebih tinggi dalam bahasa yang disokong baik (Inggeris, Perancis, Jerman, Sepanyol, dan lain-lain) biasanya mencapai ketepatan tinggi. Tulisan tangan, imbasan kontras rendah, fon luar biasa dan skrip bukan Latin akan menghasilkan lebih banyak ralat. Sentiasa baca pruf output.

Bahasa manakah yang disokong?

Tesseract menyokong lebih 100 bahasa melalui sistem pek bahasanya. Sunasty memuatkan data bahasa yang anda pilih terus dalam pelayar anda; tiada data dihantar ke pelayan. Pilih bahasa yang betul sebelum memproses, model bahasa yang tidak sepadan mengurangkan ketepatan dengan ketara.

Bolehkah ia mengekstrak teks daripada PDF berbilang halaman?

Ya. Setiap halaman dikecam mengikut urutan dan teks yang diekstrak dihimpun menjadi satu output, halaman demi halaman. Masa pemprosesan berskala dengan bilangan halaman dan kerumitan setiap satu.

Adakah fail saya dimuat naik ke pelayan?

Tidak. Pengecaman dijalankan oleh enjin Tesseract yang dikompil ke WebAssembly, di dalam tab pelayar ini; model bahasa (traineddata) dimuat turun sekali dari asal milik Sunasty sendiri dan dicache, kemudian imbasan anda dibaca ke dalam memori peranti anda, dicam di situ, dan teksnya muncul secara setempat. Imej anda tidak pernah dihantar ke Sunasty atau pihak ketiga. Buka DevTools pelayar, pergi ke tab «Network» dan perhati: tiada permintaan yang membawa imbasan anda.

Adakah ia berfungsi luar talian?

Ya, setelah halaman dimuatkan. Oleh kerana pemprosesan berlaku pada peranti anda, anda boleh memutuskan sambungan rangkaian dan alat ini terus berfungsi. Ini ialah bukti paling jelas bahawa data anda tidak pernah meninggalkan mesin anda.

Adakah ia percuma? Perlukah saya akaun?

Ia percuma sepenuhnya dan tidak memerlukan pendaftaran. Tiada tera air, tiada had harian dan tiada kuki penjejakan diperlukan untuk menggunakan alat ini.