無需上傳, 100% 本機處理, 無需帳戶

操作教學

從掃描的 PDF 提取文字

掃描的 PDF 本質上是一頁的照片:文字看起來沒問題,卻無法被選取、搜尋或複製,因為它是以像素而非字元儲存的。光學字元辨識(OCR)會把那些像素轉回真正的文字,讓你可以貼進文件、用 Ctrl+F 搜尋,或建立索引供日後使用。本指南使用裝置端的 OCR 引擎,因此你的掃描檔絕不離開你的電腦。

逐步教學

  1. 開啟 OCR 工具並把你掃描的 PDF 或圖片檔拖進去。工具接受 PDF、PNG、JPEG、WebP 及其他幾種圖片格式。對多頁掃描而言,PDF 格式是最方便的單一輸入。
  2. 選擇文件中文字的語言。預設是英文。選對語言能幫助 OCR 引擎挑出正確的字元形狀,並提升對重音字母與特定語系標點的準確度。
    OCR 工具載入了一個掃描的 PDF,語言選擇器設為英文
  3. 點擊「執行」並等待 OCR 完成。引擎(Tesseract,編譯成 WebAssembly)完全在你的瀏覽器中執行。在現代裝置上處理單頁 A4 只需幾秒。結果是一個你可以下載並從中複製的純文字檔。
    從掃描的 PDF 提取出的純文字輸出,準備複製與下載

OCR 品質如何取決於掃描品質

OCR 的準確度主要由輸入品質決定。一份印刷文件(雷射印表機或影印機輸出)的乾淨 300 DPI 掃描檔,會得到近乎完美的結果。一張在光線不佳下斜著拍、模糊的手機照片,產出的結果會差得多,會有辨錯的字元、黏在一起的詞和遺漏的行。如果你的結果不好,試著改善來源掃描:正對著頁面、在良好光線下拍攝,並把頁面保持平整。PDF 校正傾斜工具可以在你對它跑 OCR 之前,把稍微旋轉的掃描檔擺正。

拿提取出的文字來做什麼

輸出是一個純文字檔,內含依閱讀順序辨識出的字元。你可以把它貼進文字處理器、搜尋它、翻譯它,或把它當作一份編輯後文件的起點。若要一個可搜尋的 PDF(原始頁面圖像上覆蓋一層隱形文字層),你通常會用 Adobe Acrobat 或 OCRmyPDF 這類專門的桌面軟體:這裡的裝置端工具只輸出純文字,而那正是大多數使用情境實際需要的。

本指南使用的工具

常見問題

我的掃描檔會被上傳到遠端伺服器嗎?

不會。Tesseract 被編譯成 WebAssembly,直接在你的瀏覽器分頁裡執行。語言模型(快速英文模型約 4 MB)從本站下載一次,之後就保留在快取中供離線使用。你的檔案從本機磁碟讀取並在記憶體中處理:它絕不會被送到任何伺服器。這對掃描的合約、醫療文件或私人信件來說尤其重要。

為什麼 OCR 在我的文件上輸出不完美?

OCR 的錯誤來自掃描品質(解析度低、模糊、傾斜、陰影),或來自不尋常的字體與版面。如果頁面不是完全擺正,請先試試校正傾斜工具。對手寫文字,Tesseract 的準確度會大幅下降:它是用印刷字元訓練的,不是手寫。對混合文件(印刷文字加一個手寫簽名),印刷的部分通常會正確辨識出來,而手寫的部分會出現亂碼或被略過。