无需上传, 100% 本地处理, 无需账户

操作教程

从扫描版 PDF 中提取文字

一个扫描版 PDF 本质上就是一张页面的照片:文字看起来没问题,却无法被选中、搜索或复制,因为它是以像素而非字符的形式存储的。光学字符识别(OCR)把这些像素还原成真正的文字,你可以把它粘贴进文档、用 Ctrl+F 搜索,或为日后建立索引。本指南使用一个设备本地的 OCR 引擎,因此你的扫描件永远不会离开你的电脑。

分步操作

  1. 打开 OCR 工具,把你的扫描版 PDF 或图片文件拖进去。该工具接受 PDF、PNG、JPEG、WebP 以及若干其他图片格式。对于多页扫描件,PDF 格式是最方便的单一输入。
  2. 选择文档中文字的语言。默认是英语。选对语言有助于 OCR 引擎挑选正确的字形,并能提高对带重音字母和特定语言标点的识别准确度。
    OCR 工具中已载入一个扫描版 PDF,语言选择器设为英语
  3. 点击“运行”,等待 OCR 完成。引擎(Tesseract,编译为 WebAssembly)完全在你的浏览器中运行。在现代设备上处理单张 A4 页面只需几秒。结果是一个纯文本文件,你可以下载并从中复制。
    从扫描版 PDF 提取出的纯文本输出,可供复制和下载

OCR 质量如何取决于扫描质量

OCR 的准确度主要由输入质量决定。一份打印文档(激光打印机或复印机输出)的清晰 300 DPI 扫描件会得到近乎完美的结果。而在昏暗光线下歪着拍的一张模糊手机照片会产生差得多的输出,伴有错认的字符、粘连的词和缺失的行。如果你的结果不理想,可以试着改善源扫描:正对页面拍摄、光线充足、保持纸面平整。PDF 纠偏工具可以在你运行 OCR 之前把略微倾斜的扫描件摆正。

提取出的文字可以拿来做什么

输出是一个纯文本文件,识别出的字符按阅读顺序排列。你可以把它粘贴进字处理软件、对它进行搜索、翻译它,或把它作为编辑文档的起点。要得到可搜索的 PDF(在原始页面图像上叠加一层不可见的文字层),你通常会使用专门的桌面软件,比如 Adobe Acrobat 或 OCRmyPDF:这里这个设备本地的工具只输出纯文本,而这正是大多数用例真正需要的。

本指南用到的工具

常见问题

我的扫描件会被上传到远程服务器吗?

不会。Tesseract 被编译为 WebAssembly,直接在你的浏览器标签页内运行。语言模型(英文快速模型约 4 MB)只从本站下载一次,之后便缓存下来供离线使用。你的文件从本地磁盘读取并在内存中处理:它绝不会被发送到任何服务器。对于扫描的合同、医疗文件或私人信件,这一点尤为重要。

为什么 OCR 在我的文档上输出得不完美?

OCR 错误来自扫描质量(分辨率过低、模糊、倾斜、阴影)或不常见的字体与排版。如果页面不是完全笔直的,请先试试纠偏工具。对于手写文字,Tesseract 的准确度会大幅下降:它是在印刷字符上训练的,而非手写体。对于混合文档(印刷文字加一处手写签名),印刷部分通常会被正确识别出来,而手写部分会出现乱码或被略去。