操作教程

从扫描版 PDF 中提取文字

一个扫描版 PDF 本质上就是一张页面的照片：文字看起来没问题，却无法被选中、搜索或复制，因为它是以像素而非字符的形式存储的。光学字符识别（OCR）把这些像素还原成真正的文字，你可以把它粘贴进文档、用 Ctrl+F 搜索，或为日后建立索引。本指南使用一个设备本地的 OCR 引擎，因此你的扫描件永远不会离开你的电脑。

分步操作

打开 OCR 工具，把你的扫描版 PDF 或图片文件拖进去。该工具接受 PDF、PNG、JPEG、WebP 以及若干其他图片格式。对于多页扫描件，PDF 格式是最方便的单一输入。
选择文档中文字的语言。默认是英语。选对语言有助于 OCR 引擎挑选正确的字形，并能提高对带重音字母和特定语言标点的识别准确度。
点击“运行”，等待 OCR 完成。引擎（Tesseract，编译为 WebAssembly）完全在你的浏览器中运行。在现代设备上处理单张 A4 页面只需几秒。结果是一个纯文本文件，你可以下载并从中复制。

OCR 质量如何取决于扫描质量

OCR 的准确度主要由输入质量决定。一份打印文档（激光打印机或复印机输出）的清晰 300 DPI 扫描件会得到近乎完美的结果。而在昏暗光线下歪着拍的一张模糊手机照片会产生差得多的输出，伴有错认的字符、粘连的词和缺失的行。如果你的结果不理想，可以试着改善源扫描：正对页面拍摄、光线充足、保持纸面平整。PDF 纠偏工具可以在你运行 OCR 之前把略微倾斜的扫描件摆正。

提取出的文字可以拿来做什么

输出是一个纯文本文件，识别出的字符按阅读顺序排列。你可以把它粘贴进字处理软件、对它进行搜索、翻译它，或把它作为编辑文档的起点。要得到可搜索的 PDF（在原始页面图像上叠加一层不可见的文字层），你通常会使用专门的桌面软件，比如 Adobe Acrobat 或 OCRmyPDF：这里这个设备本地的工具只输出纯文本，而这正是大多数用例真正需要的。

本指南用到的工具

常见问题

我的扫描件会被上传到远程服务器吗？

不会。Tesseract 被编译为 WebAssembly，直接在你的浏览器标签页内运行。语言模型（英文快速模型约 4 MB）只从本站下载一次，之后便缓存下来供离线使用。你的文件从本地磁盘读取并在内存中处理：它绝不会被发送到任何服务器。对于扫描的合同、医疗文件或私人信件，这一点尤为重要。

为什么 OCR 在我的文档上输出得不完美？

OCR 错误来自扫描质量（分辨率过低、模糊、倾斜、阴影）或不常见的字体与排版。如果页面不是完全笔直的，请先试试纠偏工具。对于手写文字，Tesseract 的准确度会大幅下降：它是在印刷字符上训练的，而非手写体。对于混合文档（印刷文字加一处手写签名），印刷部分通常会被正确识别出来，而手写部分会出现乱码或被略去。