PDF → 文本提取

从你的 PDF 中提取所有可读文本，下载为 .txt 文件。一切都留在浏览器中，无文件发送至服务器。

PDF 转文本的工作原理

PDF 转文本工具从 PDF 中提取现有文本层，并将其保存为纯 .txt 文件。提取由浏览器内的 pdf.js 执行，读取嵌入在 PDF 页面流中的文本内容对象。文档不会离开你的设备；结果在本地组装并作为直接下载提供。

此工具读取文件中已存在的文本层。如果你的 PDF 是由文字处理软件或导出工具创建的，它几乎可以肯定有文本层，提取效果会很好。如果 PDF 是纸质文档的扫描件，页面仅包含图像数据，没有可提取的文本层；在这种情况下，此工具将返回空白或不完整的输出。扫描的 PDF 需要光学字符识别（OCR）才能生成文本，这是此工具不执行的单独过程。在使用此工具之前，请先在查看器中检查你的 PDF 是否有可选择的文本。

作者 Bastien Sulyan

PDF 转文本的分步使用说明

将 PDF 加载到文本提取工具中。
等待 pdf.js 从所有页面读取文本层。
预览提取的文本。
点击下载以保存 .txt 文件。

常见使用场景

提取研究论文 PDF 中的文本，粘贴到笔记应用程序或通过摘要工具处理。
将 PDF 发票中的内容提取到电子表格中，无需手动重新输入即可记账。
从损坏或版式锁定的 PDF 中恢复文本，这类 PDF 在查看器中复制粘贴功能已失效。
将 PDF 文章转换为纯文本，以便通过脚本或命令行工具进行处理。

常见问题

为什么某些 PDF 的提取文本是空白或乱码？

最常见的原因是 PDF 是扫描件：页面是图像，不包含文本层。其他原因包括文本以轮廓形式存储的 PDF，或自定义字体编码使 pdf.js 无法映射到可读字符。对于扫描文档，需要 OCR 才能生成文本。

此工具对扫描的 PDF 执行 OCR 吗？

不会。此工具读取 PDF 中现有的文本层，不执行光学字符识别。对于扫描的 PDF，请使用 OCR 工具，该工具在你的浏览器中通过本地 OCR 引擎处理页面图像。

文本提取是在服务器上还是在我的浏览器中完成的？

在你的浏览器中。pdf.js 在本地读取 PDF 结构，解析每个页面流中的文本内容对象，并在浏览器内存中组装输出。PDF 数据在此过程中始终不离开你的设备。

文本输出中会保留格式和版式吗？

不会。纯文本不携带字体、大小、颜色或位置信息。输出是 pdf.js 按阅读顺序确定的未格式化文本。表格、多栏版式和特殊格式均会被扁平化。对于保留丰富版式的输出，PDF 转 HTML 转换器更为合适。

我可以从有密码保护的 PDF 中提取文本吗？

如果 PDF 设有用户打开密码，你必须提供该密码才能读取 PDF。所有者级别的提取限制也可能阻止操作。请先使用 PDF 解锁工具去除这些限制，然后重试提取。

从 PDF 中提取文本需要创建账户吗？

不需要。无需注册，也无需账户。拖入文件，查看提取出的预览，然后下载 .txt 文件即可。

PDF 转文本在手机浏览器上可以使用吗？

可以。pdf.js 在手机浏览器上的运行方式与桌面端相同。提取完成后，你可以直接在手机页面上复制或下载提取出的文本。

PDF → 文本提取

PDF 转文本的工作原理

PDF 转文本的分步使用说明

常见使用场景

常见问题

相关工具

介绍此工具的指南和文章

PDF → 文本提取

PDF 转文本 的工作原理

PDF 转文本 的分步使用说明

常见使用场景

常见问题

相关工具

介绍此工具的指南和文章

PDF 转文本的工作原理

PDF 转文本的分步使用说明