操作教學
從掃描的 PDF 提取文字
掃描的 PDF 本質上是一頁的照片:文字看起來沒問題,卻無法被選取、搜尋或複製,因為它是以像素而非字元儲存的。光學字元辨識(OCR)會把那些像素轉回真正的文字,讓你可以貼進文件、用 Ctrl+F 搜尋,或建立索引供日後使用。本指南使用裝置端的 OCR 引擎,因此你的掃描檔絕不離開你的電腦。
逐步教學
- 開啟 OCR 工具並把你掃描的 PDF 或圖片檔拖進去。工具接受 PDF、PNG、JPEG、WebP 及其他幾種圖片格式。對多頁掃描而言,PDF 格式是最方便的單一輸入。
- 選擇文件中文字的語言。預設是英文。選對語言能幫助 OCR 引擎挑出正確的字元形狀,並提升對重音字母與特定語系標點的準確度。
- 點擊「執行」並等待 OCR 完成。引擎(Tesseract,編譯成 WebAssembly)完全在你的瀏覽器中執行。在現代裝置上處理單頁 A4 只需幾秒。結果是一個你可以下載並從中複製的純文字檔。
OCR 品質如何取決於掃描品質
OCR 的準確度主要由輸入品質決定。一份印刷文件(雷射印表機或影印機輸出)的乾淨 300 DPI 掃描檔,會得到近乎完美的結果。一張在光線不佳下斜著拍、模糊的手機照片,產出的結果會差得多,會有辨錯的字元、黏在一起的詞和遺漏的行。如果你的結果不好,試著改善來源掃描:正對著頁面、在良好光線下拍攝,並把頁面保持平整。PDF 校正傾斜工具可以在你對它跑 OCR 之前,把稍微旋轉的掃描檔擺正。
拿提取出的文字來做什麼
輸出是一個純文字檔,內含依閱讀順序辨識出的字元。你可以把它貼進文字處理器、搜尋它、翻譯它,或把它當作一份編輯後文件的起點。若要一個可搜尋的 PDF(原始頁面圖像上覆蓋一層隱形文字層),你通常會用 Adobe Acrobat 或 OCRmyPDF 這類專門的桌面軟體:這裡的裝置端工具只輸出純文字,而那正是大多數使用情境實際需要的。
本指南使用的工具
常見問題
我的掃描檔會被上傳到遠端伺服器嗎?
不會。Tesseract 被編譯成 WebAssembly,直接在你的瀏覽器分頁裡執行。語言模型(快速英文模型約 4 MB)從本站下載一次,之後就保留在快取中供離線使用。你的檔案從本機磁碟讀取並在記憶體中處理:它絕不會被送到任何伺服器。這對掃描的合約、醫療文件或私人信件來說尤其重要。
為什麼 OCR 在我的文件上輸出不完美?
OCR 的錯誤來自掃描品質(解析度低、模糊、傾斜、陰影),或來自不尋常的字體與版面。如果頁面不是完全擺正,請先試試校正傾斜工具。對手寫文字,Tesseract 的準確度會大幅下降:它是用印刷字元訓練的,不是手寫。對混合文件(印刷文字加一個手寫簽名),印刷的部分通常會正確辨識出來,而手寫的部分會出現亂碼或被略過。