OCR, ekstrak teks dari gambar & PDF

Jatuhkan gambar atau PDF dan dapatkan teks yang dikenali. OCR berjalan sepenuhnya di browser Anda (pada perangkat, offline setelah pemuatan pertama), tidak ada yang diunggah.

Cara kerja OCR · gambar/PDF ke teks

OCR mengonversi gambar pindaian atau PDF berbasis gambar menjadi teks yang dapat disalin, dicari, dan diedit, menggunakan tesseract.js yang berjalan sepenuhnya di dalam browser Anda. Anda memilih bahasa dokumen dari selektor, model bahasa yang relevan diunduh ke browser Anda sekali, dan semua pengenalan berikutnya berjalan secara offline dari model yang di-cache tersebut. Berkas pindaian Anda tidak pernah dikirim ke server mana pun selama konversi.

Akurasi pengenalan sangat bergantung pada kualitas pindaian. Pindaian bersih dengan kontras tinggi pada 200 DPI atau lebih, dengan gangguan latar belakang minimal dan penyelarasan halaman yang lurus, menghasilkan hasil terbaik. JPEG yang buram, beresolusi rendah, atau sangat terkompresi, halaman dengan kolom atau tata letak yang kompleks, dan teks tulisan tangan semuanya mengurangi akurasi. Alat ini menghasilkan blok teks biasa; untuk keluaran terstruktur seperti tabel atau tata letak multi-kolom yang dipertahankan, diperlukan pasca-pemrosesan. Menjalankan alat PDF Deskew pada pindaian yang miring sebelum OCR biasanya meningkatkan tingkat pengenalan.

Ditulis oleh Bastien Sulyan

Cara menggunakan OCR · gambar/PDF ke teks, langkah demi langkah

Letakkan gambar pindaian (PNG, JPG, TIFF) atau PDF berbasis gambar ke area unggah.
Pilih bahasa utama dokumen dari dropdown bahasa.
Jika ini pertama kalinya Anda menggunakan bahasa tersebut, tunggu model bahasa diunduh (ini terjadi sekali).
Klik ekstrak teks dan tunggu tesseract.js memproses setiap halaman.
Salin teks yang dikenali atau unduh sebagai berkas teks biasa.

Kasus penggunaan umum

Tanda terima yang dipindai perlu item-itemnya diekstrak ke spreadsheet; jalankan OCR untuk mendapatkan teks, lalu tempelkan ke perangkat lunak akuntansi Anda.
Arsip artikel jurnal yang dipindai perlu dibuat dapat dicari; konversi setiap halaman ke teks dengan OCR untuk pengindeksan.
Foto papan tulis dari rapat berisi catatan yang perlu diubah menjadi dokumen yang dapat diedit.
Dokumen pindaian bersejarah dalam bahasa Jerman perlu teksnya diekstrak untuk diterjemahkan; pilih Jerman sebagai bahasa sebelum menjalankan OCR.

Pertanyaan yang sering diajukan

Mengapa saya perlu mengunduh model bahasa sebelum OCR dapat berfungsi?

tesseract.js menggunakan berkas data jaringan neural terlatih yang spesifik untuk setiap bahasa. Berkas-berkas ini berukuran beberapa megabyte masing-masing dan diunduh sekali dari situs ini (kami menghostingnya sendiri, tanpa CDN pihak ketiga) pertama kali Anda memilih bahasa tersebut. Setelah unduhan awal, model di-cache oleh browser Anda, dan semua pengenalan lebih lanjut untuk bahasa tersebut berjalan sepenuhnya offline.

Faktor apa yang paling mempengaruhi akurasi OCR?

Resolusi pindaian (minimal 200 DPI, direkomendasikan 300 DPI), ketajaman gambar, kontras antara teks dan latar belakang, serta apakah halaman lurus semuanya sangat mempengaruhi akurasi. Pindaian JPEG yang sangat terkompresi, fon yang sangat kecil, dan halaman dengan orientasi campuran atau tata letak kolom yang kompleks adalah sumber kesalahan pengenalan yang paling umum.

Bisakah OCR membaca teks tulisan tangan?

tesseract.js dilatih terutama pada teks cetak. Akurasi pengenalan tulisan tangan umumnya rendah dan tidak dapat diandalkan, terutama untuk tulisan bersambung. Untuk dokumen tulisan tangan, alat pengenalan tulisan tangan khusus menghasilkan hasil yang lebih baik.

Apakah dokumen pindaian saya dikirim ke mana pun selama ekstraksi teks?

Tidak. Setelah model bahasa di-cache, setiap tugas pengenalan terjadi sepenuhnya di browser Anda menggunakan tesseract.js. Dokumen pindaian mungkin berisi konten pribadi atau rahasia; pemrosesan hanya-lokal ini berarti konten tersebut tidak pernah menyentuh server.

Apakah alat ini mempertahankan tata letak pindaian asli?

Keluarannya adalah aliran teks biasa dalam urutan membaca. Tabel, kolom, header, dan elemen tata letak lainnya tidak dipertahankan sebagai struktur; alat ini hanya menghasilkan konten teks. Untuk keluaran yang mempertahankan tata letak, diperlukan pipeline OCR yang lebih canggih dengan analisis tata letak.

Bisakah saya menjalankan OCR pada PDF yang sudah berisi teks yang dapat dipilih?

Alat ini dapat memproses PDF berbasis gambar di mana setiap halaman adalah gambar raster tanpa teks yang disematkan. Jika PDF Anda sudah memiliki lapisan teks (Anda dapat memilih dan menyalin teks di penampil), menjalankan OCR tidak diperlukan; lapisan teks yang ada memberi Anda informasi yang sama tanpa langkah pengenalan.

Bisakah saya menjalankan OCR pada foto yang diambil dengan ponsel saya?

Ya, dan tesseract.js berfungsi di browser mobile, sehingga Anda bahkan bisa membuka halaman ini di ponsel yang mengambil foto tersebut. Foto yang diambil dengan sudut miring atau pencahayaan tidak merata dikenali lebih buruk daripada pindaian flatbed; meluruskan bidikan dan memangkas latar belakang terlebih dahulu membantu.

Apakah saya perlu membuat akun atau membayar untuk menggunakan OCR?

Tidak. Tidak ada pendaftaran dan tidak ada biaya. Satu-satunya unduhan yang terlibat adalah model bahasa yang dibutuhkan tesseract.js, yaitu unduhan engine satu kali, bukan langganan atau paywall.

Alat terkait

Jaga semuanya tetap lokal, jelajahi alat pelengkap.

Semua alat PDF