Tutorial

Ekstrak teks dari PDF hasil pindai

PDF hasil pindai pada dasarnya adalah foto sebuah halaman: teksnya tampak benar tetapi tidak dapat dipilih, dicari, atau disalin karena disimpan sebagai piksel, bukan karakter. Pengenalan karakter optik (OCR) mengubah piksel itu kembali menjadi teks sungguhan yang dapat Anda tempel ke dokumen, cari dengan Ctrl+F, atau indeks untuk nanti. Panduan ini memakai mesin OCR di perangkat, jadi hasil pindai Anda tidak pernah meninggalkan komputer Anda.

Langkah demi langkah

Buka alat OCR dan letakkan PDF hasil pindai atau berkas gambar Anda. Alat ini menerima PDF, PNG, JPEG, WebP, dan beberapa format gambar lainnya. Untuk pindaian banyak halaman, format PDF adalah masukan tunggal yang paling praktis.
Pilih bahasa teks dalam dokumen. Bawaannya adalah bahasa Inggris. Memilih bahasa yang benar membantu mesin OCR memilih bentuk karakter yang tepat dan meningkatkan akurasi pada huruf beraksen serta tanda baca khusus locale.
Klik Jalankan dan tunggu OCR selesai. Mesinnya (Tesseract, dikompilasi ke WebAssembly) berjalan sepenuhnya di peramban Anda. Memproses satu halaman A4 memakan waktu beberapa detik pada perangkat modern. Hasilnya adalah berkas teks biasa yang dapat Anda unduh dan salin.

Bagaimana kualitas OCR bergantung pada kualitas pindaian

Akurasi OCR sangat ditentukan oleh kualitas masukan. Pindaian bersih 300 DPI dari dokumen cetak (keluaran printer laser atau mesin fotokopi) akan menghasilkan hasil nyaris sempurna. Foto ponsel yang buram, diambil miring dalam pencahayaan buruk, akan menghasilkan keluaran yang jauh lebih jelek, dengan karakter salah baca, kata-kata yang menyatu, dan baris yang hilang. Jika hasil Anda buruk, coba perbaiki pindaian sumbernya: ambil foto tegak lurus, dalam cahaya yang baik, dan jaga halaman tetap rata. Alat deskew PDF dapat meluruskan pindaian yang sedikit miring sebelum Anda menjalankan OCR.

Apa yang harus dilakukan dengan teks yang diekstrak

Keluarannya adalah berkas teks biasa berisi karakter yang dikenali dalam urutan baca. Anda dapat menempelkannya ke pengolah kata, mencarinya, menerjemahkannya, atau memakainya sebagai titik awal untuk dokumen yang disunting. Untuk PDF yang dapat dicari (gambar halaman asli dengan lapisan teks tak terlihat yang ditumpangkan), Anda biasanya akan memakai perangkat lunak desktop khusus seperti Adobe Acrobat atau OCRmyPDF: alat di perangkat ini hanya menghasilkan teks biasa, yang justru dibutuhkan sebagian besar kasus pemakaian.

Alat yang digunakan dalam panduan ini

Pertanyaan yang sering diajukan

Apakah pindaian saya diunggah ke server jarak jauh?

Tidak. Tesseract dikompilasi ke WebAssembly dan berjalan langsung di dalam tab peramban Anda. Model bahasa (sekitar 4 MB untuk model cepat bahasa Inggris) diunduh dari situs ini sekali, lalu tetap tersimpan dalam cache untuk pemakaian luring. Berkas Anda dibaca dari disk lokal dan diproses di memori: berkas itu tidak pernah dikirim ke server mana pun. Ini sangat penting untuk kontrak hasil pindai, dokumen medis, atau korespondensi pribadi.

Mengapa keluaran OCR pada dokumen saya tidak sempurna?

Kesalahan OCR berasal dari kualitas pindaian (resolusi rendah, buram, miring, bayangan) atau dari font dan tata letak yang tidak biasa. Coba alat deskew dulu jika halaman tidak benar-benar lurus. Untuk teks tulisan tangan, akurasi Tesseract turun drastis: ia dilatih pada karakter cetak, bukan tulisan tangan. Untuk dokumen campuran (teks cetak ditambah tanda tangan tulisan tangan), bagian cetak biasanya akan keluar dengan benar dan bagian tulisan tangan akan kacau atau terlewat.