OCR，從圖片與 PDF 提取文字

放入圖片或 PDF 即可取得辨識文字。OCR 完全在你的瀏覽器中執行（裝置端，首次載入後可離線），不會上傳任何內容。

OCR · 圖片/PDF 轉文字的運作方式

OCR 工具使用完全在你瀏覽器內執行的 tesseract.js，將掃描的圖片或以圖片為基礎的 PDF 轉換為可複製、搜尋和編輯的文字。你從選擇器中選擇文件語言，相關的語言模型下載至你的瀏覽器一次，此後所有辨識工作都可從快取的模型離線執行。轉換過程中，你的掃描檔案從不傳送至任何伺服器。

辨識準確性在很大程度上取決於掃描品質。200 DPI 或以上的清晰高對比掃描，背景雜訊極少且頁面對齊良好，可產生最佳效果。模糊、低解析度或重度壓縮的 JPEG、有多欄或複雜版面的頁面，以及手寫文字，都會降低準確性。工具輸出純文字區塊；如需保留表格或多欄版面等結構化輸出，需要後處理。對彎曲的掃描件在 OCR 前先執行「PDF 糾偏」工具，通常可改善辨識率。

作者 Bastien Sulyan

OCR · 圖片/PDF 轉文字的分步使用說明

將掃描的圖片（PNG、JPG、TIFF）或以圖片為基礎的 PDF 拖放至上傳區域。
從語言下拉選單中選擇文件的主要語言。
若這是你第一次使用該語言，請等待語言模型下載（僅需一次）。
點擊「擷取文字」並等待 tesseract.js 處理每一頁。
複製辨識出的文字或將其下載為純文字檔案。

常見使用情境

掃描的收據需要提取明細至試算表；執行 OCR 取得文字，再貼入你的會計軟體。
掃描期刊文章的存檔需要製作為可文字搜尋的格式；為每篇文章執行 OCR 以建立索引。
會議中拍攝的白板含有需要轉為可編輯文件的筆記。
德文歷史掃描文件需要擷取文字以便翻譯；執行 OCR 前選擇德文作為語言。

常見問題

為什麼 OCR 執行前需要下載語言模型？

tesseract.js 使用針對各語言訓練的神經網路資料檔案。這些檔案各有數 MB，在你第一次選擇該語言時，會從本網站下載一次（模型由我們自行代管，並非透過第三方 CDN）。初次下載後，模型由你的瀏覽器快取，之後對該語言的所有辨識均完全離線執行。

哪些因素最影響 OCR 準確性？

掃描解析度（最低 200 DPI，建議 300 DPI）、圖片清晰度、文字與背景的對比度，以及頁面是否平直，都會強烈影響準確性。重度壓縮的 JPEG 掃描、非常小的字型，以及混合方向或複雜多欄版面的頁面，是最常見的辨識錯誤來源。

OCR 可以辨識手寫文字嗎？

tesseract.js 主要針對印刷文字訓練。手寫辨識準確性通常較低，草書尤其不可靠。對於手寫文件，專用的手寫辨識工具可產生更好的效果。

文字擷取過程中我的掃描文件是否傳送至任何地方？

不會。語言模型快取後，所有辨識工作完全在你的瀏覽器中使用 tesseract.js 執行。掃描文件可能包含個人或機密內容；此本機處理方式確保這些內容絕不到達伺服器。

工具是否保留原始掃描件的版面配置？

輸出是按閱讀順序排列的純文字串流。表格、欄位、標題及其他版面元素不會以結構形式保留；工具只輸出文字內容。如需保留版面的輸出，需要帶有版面分析的更進階 OCR 管線。

可以對已含有可選取文字的 PDF 執行 OCR 嗎？

工具可以處理每頁均為沒有嵌入文字的點陣圖的以圖片為基礎的 PDF。若你的 PDF 已有文字層（可在檢視器中選取和複製文字），則無需執行 OCR；現有文字層已提供了相同資訊，無需辨識步驟。

我可以對手機拍的照片執行 OCR 嗎？

可以，而且 tesseract.js 在行動瀏覽器上也能運作，你甚至可以在拍下這張照片的同一支手機上開啟這個頁面。角度傾斜或光線不均的照片辨識效果會比平台掃描機掃出來的差；先把照片擺正、裁掉背景會有幫助。

使用 OCR 需要建立帳號或付費嗎？

不需要。沒有註冊，也沒有費用。唯一涉及的下載是 tesseract.js 所需的語言模型，那是一次性的引擎下載，不是訂閱或付費牆。

OCR，從圖片與 PDF 提取文字

OCR · 圖片/PDF 轉文字的運作方式

OCR · 圖片/PDF 轉文字的分步使用說明

常見使用情境

常見問題

相關工具

介紹此工具的指南和文章

OCR，從圖片與 PDF 提取文字

OCR · 圖片/PDF 轉文字 的運作方式

OCR · 圖片/PDF 轉文字 的分步使用說明

常見使用情境

常見問題

相關工具

介紹此工具的指南和文章

OCR · 圖片/PDF 轉文字的運作方式

OCR · 圖片/PDF 轉文字的分步使用說明