无需上传, 100% 本地处理, 无需账户

OCR, 从图片和 PDF 提取文本

拖入图片或 PDF 即可获得识别出的文本。OCR 完全在浏览器中运行(设备端,首次加载后即可离线), 不上传任何内容。

OCR · 图片/PDF 转文本 的工作原理

OCR(光学字符识别)能从扫描图像和基于图像的 PDF 中提取文字,并给你可搜索、可复制的结果。Sunasty 通过 WebAssembly 运行 Tesseract,因此识别引擎是托管在你设备上的。

准确率取决于扫描件的质量和所选语言。清晰、高对比度、采用受支持语言的印刷文字扫描件通常能得到出色的结果;手写体、低分辨率扫描件、含有复杂多栏排版或混合文字体系的页面,准确率会较低。请务必核对输出,尤其是人名、数字和专业术语。为获得最佳效果,请先用 PDF 纠偏工具对扫描件进行纠偏。

常见问题

OCR 有多准确?

准确率随扫描质量、分辨率和语言而变化。以 300 DPI 或更高分辨率扫描、采用受良好支持语言(英语、法语、德语、西班牙语等)的印刷文字通常能达到很高的准确率。手写体、低对比度扫描件、不常见字体和非拉丁文字体系会产生更多错误。请务必校对输出。

支持哪些语言?

Tesseract 通过其语言包系统支持 100 多种语言。Sunasty 会直接在你的浏览器中加载你所选择的语言数据;没有任何数据被发送到服务器。请在处理前选择正确的语言, , 不匹配的语言模型会显著降低准确率。

它能从多页 PDF 中提取文字吗?

可以。每一页会按顺序被识别,提取出的文字会逐页汇集成一份输出。处理时间会随页数和每一页的复杂程度而增加。

我的文件会被上传到服务器吗?

不会。识别由编译为 WebAssembly 的 Tesseract 引擎在此浏览器标签页中执行;语言模型(traineddata)从 Sunasty 自己的源仅获取一次并缓存,随后您的扫描件被读入您设备的内存,在本地识别,文本在本地显示。您的图片绝不会传输给 Sunasty 或任何第三方。打开浏览器的 DevTools,切换到「Network」标签页观察:没有任何请求携带您的扫描件。

它能离线工作吗?

可以,只要页面已经加载完成。由于处理在你的设备上进行,你可以断开网络连接,工具仍然照常运行。这是你的数据从不离开你机器的最清晰证明。

它免费吗?需要账号吗?

它完全免费,无需注册。没有水印,没有每日限制,使用该工具也不需要任何追踪 Cookie。