Hướng dẫn cách làm

Trích xuất văn bản từ một PDF đã quét

Một PDF đã quét về cơ bản là một bức ảnh chụp trang giấy: văn bản trông đúng nhưng không thể chọn, tìm kiếm hay sao chép vì nó được lưu dưới dạng điểm ảnh, không phải ký tự. Nhận dạng ký tự quang học (OCR) chuyển những điểm ảnh đó trở lại thành văn bản thực mà bạn có thể dán vào một tài liệu, tìm kiếm bằng Ctrl+F hoặc lập chỉ mục để dùng sau. Hướng dẫn này dùng một công cụ OCR chạy trên thiết bị, nên bản quét của bạn không bao giờ rời khỏi máy tính.

Từng bước

Mở công cụ OCR và thả vào tệp PDF đã quét hoặc tệp hình ảnh của bạn. Công cụ chấp nhận PDF, PNG, JPEG, WebP và một số định dạng hình ảnh khác. Với một bản quét nhiều trang, định dạng PDF là một đầu vào duy nhất tiện lợi nhất.
Chọn ngôn ngữ của văn bản trong tài liệu. Mặc định là tiếng Anh. Chọn đúng ngôn ngữ giúp công cụ OCR chọn đúng hình dạng ký tự và cải thiện độ chính xác trên các chữ cái có dấu và dấu câu đặc thù theo ngôn ngữ.
Nhấn Chạy và chờ OCR hoàn tất. Công cụ (Tesseract, được biên dịch sang WebAssembly) chạy hoàn toàn trong trình duyệt của bạn. Việc xử lý một trang A4 mất vài giây trên một thiết bị hiện đại. Kết quả là một tệp văn bản thuần mà bạn có thể tải xuống và sao chép từ đó.

Vì sao chất lượng OCR phụ thuộc vào chất lượng bản quét

Độ chính xác của OCR chủ yếu do chất lượng đầu vào quyết định. Một bản quét sạch ở 300 DPI của một tài liệu in (đầu ra từ máy in laser hoặc máy photocopy) sẽ cho kết quả gần như hoàn hảo. Một bức ảnh điện thoại mờ chụp nghiêng trong ánh sáng kém sẽ tạo ra đầu ra tệ hơn nhiều, với ký tự bị đọc sai, từ bị dính vào nhau và dòng bị thiếu. Nếu kết quả của bạn kém, hãy thử cải thiện bản quét nguồn: chụp ảnh thẳng góc, trong ánh sáng tốt, và giữ trang phẳng. Công cụ chỉnh thẳng PDF có thể nắn lại một bản quét hơi bị xoay trước khi bạn chạy OCR trên đó.

Làm gì với văn bản đã trích xuất

Đầu ra là một tệp văn bản thuần với các ký tự được nhận dạng theo thứ tự đọc. Bạn có thể dán nó vào một trình xử lý văn bản, tìm kiếm trong đó, dịch nó hoặc dùng làm điểm khởi đầu cho một tài liệu được chỉnh sửa. Để có một PDF tìm kiếm được (ảnh trang gốc với một lớp văn bản vô hình phủ lên trên), thông thường bạn sẽ dùng phần mềm máy tính để bàn chuyên dụng như Adobe Acrobat hoặc OCRmyPDF: công cụ trên thiết bị ở đây chỉ xuất ra văn bản thuần, vốn là thứ mà hầu hết các trường hợp sử dụng thực sự cần.

Các công cụ dùng trong hướng dẫn này

Câu hỏi thường gặp

Bản quét của tôi có được tải lên một máy chủ từ xa không?

Không. Tesseract được biên dịch sang WebAssembly và chạy trực tiếp bên trong tab trình duyệt của bạn. Mô hình ngôn ngữ (khoảng 4 MB cho mô hình tiếng Anh nhanh) tải xuống từ trang này một lần, rồi được giữ trong bộ nhớ đệm để dùng ngoại tuyến. Tệp của bạn được đọc từ đĩa cục bộ và xử lý trong bộ nhớ: nó không bao giờ được gửi đến bất kỳ máy chủ nào. Điều này đặc biệt quan trọng với các hợp đồng đã quét, tài liệu y tế hoặc thư từ cá nhân.

Vì sao đầu ra OCR trên tài liệu của tôi không hoàn hảo?

Lỗi OCR đến từ chất lượng bản quét (độ phân giải thấp, mờ, nghiêng, bóng đổ) hoặc từ phông chữ và bố cục bất thường. Hãy thử công cụ chỉnh thẳng trước nếu trang không hoàn toàn thẳng. Với văn bản viết tay, độ chính xác của Tesseract giảm đáng kể: nó được huấn luyện trên ký tự in, không phải chữ viết tay. Với các tài liệu hỗn hợp (văn bản in cộng với một chữ ký viết tay), các phần in thường sẽ ra đúng còn các phần viết tay sẽ bị sai lệch hoặc bị bỏ qua.