Tutorial

Ekstrak teks daripada PDF imbasan

PDF imbasan pada dasarnya ialah gambar sesebuah halaman: teks kelihatan betul tetapi tidak boleh dipilih, dicari atau disalin kerana ia disimpan sebagai piksel, bukan aksara. Pengecaman aksara optik (OCR) menukar piksel tersebut semula menjadi teks sebenar yang boleh anda tampal ke dalam dokumen, cari dengan Ctrl+F atau indeks untuk kemudian. Panduan ini menggunakan enjin OCR pada peranti, jadi imbasan anda tidak pernah meninggalkan komputer anda.

Langkah demi langkah

Buka alat OCR dan lepaskan PDF imbasan atau fail imej anda ke dalamnya. Alat ini menerima format PDF, PNG, JPEG, WebP dan beberapa format imej lain. Untuk imbasan berbilang halaman, format PDF ialah input tunggal yang paling mudah.
Pilih bahasa teks dalam dokumen. Lalai ialah bahasa Inggeris. Memilih bahasa yang betul membantu enjin OCR memilih bentuk aksara yang betul dan meningkatkan ketepatan pada huruf beraksen dan tanda baca khusus locale.
Klik Jalankan dan tunggu OCR selesai. Enjin (Tesseract, dikompil kepada WebAssembly) berjalan sepenuhnya dalam pelayar anda. Memproses satu halaman A4 mengambil masa beberapa saat pada peranti moden. Hasilnya ialah fail teks biasa yang boleh anda muat turun dan salin daripadanya.

Bagaimana kualiti OCR bergantung pada kualiti imbasan

Ketepatan OCR didominasi oleh kualiti input. Imbasan 300 DPI yang bersih bagi dokumen bercetak (output pencetak laser atau mesin fotokopi) akan menghasilkan keputusan yang hampir sempurna. Foto telefon yang kabur diambil pada sudut dalam pencahayaan buruk akan menghasilkan output yang jauh lebih teruk, dengan aksara yang salah baca, perkataan yang bergabung dan baris yang hilang. Jika keputusan anda lemah, cuba perbaiki imbasan sumber: ambil foto tepat dari hadapan, dalam cahaya yang baik, dan kekalkan halaman rata. Alat deskew PDF boleh meluruskan imbasan yang sedikit terputar sebelum anda menjalankan OCR padanya.

Apa yang perlu dilakukan dengan teks yang diekstrak

Output ialah fail teks biasa dengan aksara yang dicam dalam susunan bacaan. Anda boleh menampalnya ke dalam pemproses kata, mencarinya, menterjemahkannya atau menggunakannya sebagai titik permulaan untuk dokumen yang disunting. Untuk PDF boleh cari (imej halaman asal dengan lapisan teks halimunan ditindih), anda biasanya akan menggunakan perisian desktop khusus seperti Adobe Acrobat atau OCRmyPDF: alat pada peranti di sini mengeluarkan teks biasa sahaja, iaitu apa yang kebanyakan kes guna sebenarnya perlukan.

Alat yang digunakan dalam panduan ini

Soalan lazim

Adakah imbasan saya dimuat naik ke pelayan jauh?

Tidak. Tesseract dikompil kepada WebAssembly dan berjalan terus di dalam tab pelayar anda. Model bahasa (sekitar 4 MB untuk model Inggeris pantas) dimuat turun daripada laman ini sekali sahaja, kemudian kekal dalam cache untuk kegunaan luar talian. Fail anda dibaca daripada cakera tempatan anda dan diproses dalam memori: ia tidak pernah dihantar ke mana-mana pelayan. Ini amat penting untuk kontrak imbasan, dokumen perubatan atau surat-menyurat peribadi.

Mengapa output OCR tidak sempurna pada dokumen saya?

Ralat OCR datang daripada kualiti imbasan (resolusi rendah, kabur, sengetan, bayang) atau daripada fon dan susun atur yang luar biasa. Cuba alat deskew dahulu jika halaman tidak betul-betul lurus. Untuk teks tulisan tangan, ketepatan Tesseract menurun dengan ketara: ia dilatih pada aksara bercetak, bukan tulisan tangan. Untuk dokumen bercampur (teks bercetak ditambah tandatangan tulisan tangan), bahagian bercetak biasanya keluar dengan betul dan bahagian tulisan tangan akan kacau atau tertinggal.