无需上传, 100% 本地处理, 无需账户

PDF → 文本提取

从你的 PDF 中提取所有可读文本,下载为 .txt 文件。一切都留在浏览器中, 无文件发送至服务器。

PDF 转文本 的工作原理

PDF 转文本提取 PDF 中内嵌的文本内容,并将其作为纯文本 .txt 文件交付。它读取文档中存储的字符流,不涉及 OCR,因此对于文本已可被机器读取的数字化创建的 PDF,输出既快速又精确。

如果你的 PDF 是没有内嵌文本层的扫描图像,请改用 OCR 工具。对于其他所有情况,无论是合同、报告还是电子书,本工具都会瞬间提取出文本。

常见问题

我的文件会被上传到服务器吗?

不会。你的 PDF 文本由 pdf.js(Firefox 用来显示 PDF 的引擎)在你浏览器标签页中提取。每一页的字符流通过 getTextContent 在你自己的设备上被读入内存、就地组装成纯文本,生成的结果以本地 .txt 下载的形式提供。没有任何内容传输到 Sunasty 或任何第三方。你可以自己验证:打开浏览器的开发者工具,进入“网络”标签页观察, , 没有任何请求携带你的文件。

它能在扫描的 PDF 上工作吗?

只有当扫描文档已经带有内嵌文本层时才行(例如,先前一次 OCR 处理所添加的文本层)。纯图像的扫描件不包含任何可被机器读取的文本,因此提取会返回空结果, , 在这种情况下,请先使用 Sunasty 上的 OCR 工具生成文本层。

它会保留分页和格式吗?

纯文本没有版面模型,因此丰富的格式, , 分栏、表格、字号, , 不会被保留。你得到的是文本字符在 PDF 中存储时的阅读顺序。段落断行会被近似处理,但复杂的版面可能需要手动整理。

它能离线工作吗?

可以,只要页面已经加载完成。由于处理在你的设备上进行,你可以断开网络连接,工具仍能继续工作。这是你的数据从不离开你的机器的最有力证明。

它是免费的吗?我需要账户吗?

它完全免费,无需注册。没有水印,没有每日限额,使用本工具也不需要任何跟踪 cookie。