วิธีทำ
ดึงข้อความจาก PDF ที่สแกน
PDF ที่สแกนนั้นโดยพื้นฐานก็คือภาพถ่ายของหน้ากระดาษ ข้อความดูถูกต้องแต่ไม่สามารถเลือก ค้นหา หรือคัดลอกได้เพราะมันถูกเก็บเป็นพิกเซลไม่ใช่อักขระ การรู้จำอักขระด้วยแสง (OCR) แปลงพิกเซลเหล่านั้นกลับเป็นข้อความจริงที่คุณวางลงในเอกสาร ค้นหาด้วย Ctrl+F หรือทำดัชนีไว้ใช้ภายหลังได้ คู่มือนี้ใช้เอนจิน OCR บนอุปกรณ์ ดังนั้นการสแกนของคุณไม่เคยออกจากคอมพิวเตอร์
ทีละขั้นตอน
- เปิดเครื่องมือ OCR แล้ววาง PDF ที่สแกนหรือไฟล์รูปภาพของคุณลงไป เครื่องมือรับฟอร์แมต PDF, PNG, JPEG, WebP และฟอร์แมตรูปภาพอื่นอีกหลายชนิด สำหรับการสแกนหลายหน้า ฟอร์แมต PDF เป็นไฟล์เข้าเดียวที่สะดวกที่สุด
- เลือกภาษาของข้อความในเอกสาร ค่าเริ่มต้นคือภาษาอังกฤษ การเลือกภาษาที่ถูกต้องช่วยให้เอนจิน OCR เลือกรูปทรงอักขระที่เหมาะสมและเพิ่มความแม่นยำกับตัวอักษรที่มีเครื่องหมายเสียงและเครื่องหมายวรรคตอนเฉพาะของแต่ละภาษา
- คลิกรันแล้วรอให้ OCR เสร็จสิ้น เอนจิน (Tesseract ที่คอมไพล์เป็น WebAssembly) ทำงานทั้งหมดในเบราว์เซอร์ของคุณ การประมวลผลหน้า A4 หนึ่งหน้าใช้เวลาไม่กี่วินาทีบนอุปกรณ์สมัยใหม่ ผลลัพธ์เป็นไฟล์ข้อความธรรมดาที่คุณดาวน์โหลดและคัดลอกได้
คุณภาพ OCR ขึ้นอยู่กับคุณภาพการสแกนอย่างไร
ความแม่นยำของ OCR ถูกกำหนดโดยคุณภาพของไฟล์เข้าเป็นหลัก การสแกนที่สะอาด 300 DPI ของเอกสารพิมพ์ (ผลลัพธ์จากเครื่องพิมพ์เลเซอร์หรือเครื่องถ่ายเอกสาร) จะให้ผลลัพธ์ที่เกือบสมบูรณ์แบบ ภาพถ่ายโทรศัพท์ที่เบลอ ถ่ายเอียงในแสงน้อย จะให้ผลลัพธ์ที่แย่กว่ามาก มีอักขระอ่านผิด คำติดกัน และบรรทัดที่หายไป หากผลลัพธ์ของคุณแย่ ลองปรับปรุงการสแกนต้นทาง ถ่ายภาพให้ตรงหน้ากระดาษ ในแสงที่ดี และวางหน้ากระดาษให้แบนราบ เครื่องมือปรับมุม PDF สามารถปรับการสแกนที่เอียงเล็กน้อยให้ตรงก่อนที่คุณจะรัน OCR
ทำอย่างไรกับข้อความที่ดึงออกมา
ผลลัพธ์เป็นไฟล์ข้อความธรรมดาที่มีอักขระที่รู้จำได้เรียงตามลำดับการอ่าน คุณสามารถวางลงในโปรแกรมประมวลผลคำ ค้นหา แปล หรือใช้เป็นจุดเริ่มต้นสำหรับเอกสารที่แก้ไขแล้ว สำหรับ PDF ที่ค้นหาได้ (ภาพหน้าต้นฉบับซ้อนทับด้วยชั้นข้อความที่มองไม่เห็น) โดยปกติคุณจะใช้ซอฟต์แวร์เดสก์ท็อปเฉพาะอย่าง Adobe Acrobat หรือ OCRmyPDF เครื่องมือบนอุปกรณ์ที่นี่ให้ผลลัพธ์เป็นข้อความธรรมดาเท่านั้น ซึ่งเป็นสิ่งที่กรณีการใช้งานส่วนใหญ่ต้องการจริง ๆ
เครื่องมือที่ใช้ในคู่มือนี้
คำถามที่พบบ่อย
การสแกนของฉันถูกอัปโหลดไปยังเซิร์ฟเวอร์ระยะไกลหรือไม่
ไม่ Tesseract ถูกคอมไพล์เป็น WebAssembly และทำงานโดยตรงภายในแท็บเบราว์เซอร์ของคุณ โมเดลภาษา (ประมาณ 4 MB สำหรับโมเดลอังกฤษแบบเร็ว) ดาวน์โหลดจากเว็บไซต์นี้ครั้งเดียว แล้วเก็บแคชไว้สำหรับการใช้งานออฟไลน์ ไฟล์ของคุณถูกอ่านจากดิสก์ในเครื่องและประมวลผลในหน่วยความจำ ไม่เคยถูกส่งไปยังเซิร์ฟเวอร์ใด เรื่องนี้สำคัญเป็นพิเศษสำหรับสัญญาที่สแกน เอกสารทางการแพทย์ หรือจดหมายส่วนตัว
ทำไมผลลัพธ์ OCR บนเอกสารของฉันจึงไม่สมบูรณ์
ข้อผิดพลาดของ OCR มาจากคุณภาพการสแกน (ความละเอียดต่ำ ความเบลอ การเอียง เงา) หรือจากฟอนต์และเลย์เอาต์ที่ไม่ปกติ ลองใช้เครื่องมือปรับมุมก่อนหากหน้ากระดาษไม่ตรงสนิท สำหรับข้อความที่เขียนด้วยลายมือ ความแม่นยำของ Tesseract ลดลงอย่างมาก เพราะมันถูกฝึกกับอักขระที่พิมพ์ ไม่ใช่ลายมือ สำหรับเอกสารผสม (ข้อความพิมพ์บวกลายเซ็นที่เขียนด้วยมือ) ส่วนที่พิมพ์มักจะออกมาถูกต้องและส่วนที่เขียนด้วยมือจะเพี้ยนหรือถูกละไว้