操作教程
从扫描版 PDF 中提取文字
一个扫描版 PDF 本质上就是一张页面的照片:文字看起来没问题,却无法被选中、搜索或复制,因为它是以像素而非字符的形式存储的。光学字符识别(OCR)把这些像素还原成真正的文字,你可以把它粘贴进文档、用 Ctrl+F 搜索,或为日后建立索引。本指南使用一个设备本地的 OCR 引擎,因此你的扫描件永远不会离开你的电脑。
分步操作
- 打开 OCR 工具,把你的扫描版 PDF 或图片文件拖进去。该工具接受 PDF、PNG、JPEG、WebP 以及若干其他图片格式。对于多页扫描件,PDF 格式是最方便的单一输入。
- 选择文档中文字的语言。默认是英语。选对语言有助于 OCR 引擎挑选正确的字形,并能提高对带重音字母和特定语言标点的识别准确度。
- 点击“运行”,等待 OCR 完成。引擎(Tesseract,编译为 WebAssembly)完全在你的浏览器中运行。在现代设备上处理单张 A4 页面只需几秒。结果是一个纯文本文件,你可以下载并从中复制。
OCR 质量如何取决于扫描质量
OCR 的准确度主要由输入质量决定。一份打印文档(激光打印机或复印机输出)的清晰 300 DPI 扫描件会得到近乎完美的结果。而在昏暗光线下歪着拍的一张模糊手机照片会产生差得多的输出,伴有错认的字符、粘连的词和缺失的行。如果你的结果不理想,可以试着改善源扫描:正对页面拍摄、光线充足、保持纸面平整。PDF 纠偏工具可以在你运行 OCR 之前把略微倾斜的扫描件摆正。
提取出的文字可以拿来做什么
输出是一个纯文本文件,识别出的字符按阅读顺序排列。你可以把它粘贴进字处理软件、对它进行搜索、翻译它,或把它作为编辑文档的起点。要得到可搜索的 PDF(在原始页面图像上叠加一层不可见的文字层),你通常会使用专门的桌面软件,比如 Adobe Acrobat 或 OCRmyPDF:这里这个设备本地的工具只输出纯文本,而这正是大多数用例真正需要的。
本指南用到的工具
常见问题
我的扫描件会被上传到远程服务器吗?
不会。Tesseract 被编译为 WebAssembly,直接在你的浏览器标签页内运行。语言模型(英文快速模型约 4 MB)只从本站下载一次,之后便缓存下来供离线使用。你的文件从本地磁盘读取并在内存中处理:它绝不会被发送到任何服务器。对于扫描的合同、医疗文件或私人信件,这一点尤为重要。
为什么 OCR 在我的文档上输出得不完美?
OCR 错误来自扫描质量(分辨率过低、模糊、倾斜、阴影)或不常见的字体与排版。如果页面不是完全笔直的,请先试试纠偏工具。对于手写文字,Tesseract 的准确度会大幅下降:它是在印刷字符上训练的,而非手写体。对于混合文档(印刷文字加一处手写签名),印刷部分通常会被正确识别出来,而手写部分会出现乱码或被略去。