Tanpa unggah, 100% lokal, tanpa akun

OCR, ekstrak teks dari gambar & PDF

Jatuhkan gambar atau PDF dan dapatkan teks yang dikenali. OCR berjalan sepenuhnya di browser Anda (pada perangkat, offline setelah pemuatan pertama), tidak ada yang diunggah.

Cara kerja OCR · gambar/PDF ke teks

OCR, Optical Character Recognition, mengekstrak teks dari gambar pindaian dan PDF berbasis gambar, lalu menghasilkan teks yang dapat dicari dan disalin. Sunasty menjalankan Tesseract melalui WebAssembly, dengan mesin pengenalan dan model bahasa yang di-host sendiri.

Akurasi bergantung pada kualitas pemindaian Anda dan bahasa yang dipilih. Pemindaian teks cetak yang tajam dan kontras tinggi dalam bahasa yang didukung biasanya menghasilkan hasil yang sangat baik; tulisan tangan, pemindaian resolusi rendah, halaman dengan tata letak multi-kolom kompleks, atau skrip campuran akan menghasilkan akurasi yang lebih rendah. Selalu tinjau output, terutama untuk nama, angka, dan istilah teknis. Untuk hasil terbaik, lakukan deskew pada pemindaian terlebih dahulu dengan alat PDF Deskew.

Pertanyaan yang sering diajukan

Seberapa akurat OCR-nya?

Akurasi bervariasi dengan kualitas pemindaian, resolusi, dan bahasa. Teks cetak yang dipindai pada 300 DPI atau lebih tinggi dalam bahasa yang didukung dengan baik (Inggris, Prancis, Jerman, Spanyol, dan lainnya) biasanya mencapai akurasi tinggi. Tulisan tangan, pemindaian kontras rendah, font tidak biasa, dan skrip non-Latin akan menghasilkan lebih banyak kesalahan. Selalu periksa output dengan teliti.

Bahasa apa saja yang didukung?

Tesseract mendukung lebih dari 100 bahasa melalui sistem paket bahasanya. Sunasty memuat data bahasa yang Anda pilih langsung di browser Anda; tidak ada data yang dikirim ke server. Pilih bahasa yang benar sebelum memproses, model bahasa yang tidak cocok secara signifikan mengurangi akurasi.

Bisakah mengekstrak teks dari PDF multi-halaman?

Ya. Setiap halaman dikenali secara berurutan dan teks yang diekstrak dirakit menjadi satu output, halaman demi halaman. Waktu pemrosesan sebanding dengan jumlah halaman dan kompleksitas masing-masing halaman.

Apakah file saya diunggah ke server?

Tidak. Pengenalan dijalankan oleh mesin Tesseract yang dikompilasi ke WebAssembly, di dalam tab browser ini; model bahasa (traineddata) diunduh sekali dari origin milik Sunasty sendiri dan di-cache, lalu pindaian Anda dibaca ke memori perangkat Anda, dikenali di sana, dan teksnya muncul secara lokal. Gambar Anda tidak pernah dikirim ke Sunasty atau pihak ketiga. Buka DevTools browser, buka tab «Network», dan amati: tidak ada permintaan yang membawa pindaian Anda.

Apakah berfungsi secara offline?

Ya, setelah halaman dimuat. Karena pemrosesan terjadi di perangkat Anda, Anda dapat memutus koneksi dari jaringan dan alat ini tetap berfungsi. Ini adalah bukti paling jelas bahwa data Anda tidak pernah meninggalkan perangkat Anda.

Apakah gratis? Apakah saya perlu membuat akun?

Sepenuhnya gratis dan tidak memerlukan pendaftaran. Tidak ada watermark, tidak ada batas harian, dan tidak ada cookie pelacakan yang diperlukan untuk menggunakan alat ini.