OCR · 图片/PDF 转文本 的工作原理
OCR(光学字符识别)能从扫描图像和基于图像的 PDF 中提取文字,并给你可搜索、可复制的结果。Sunasty 通过 WebAssembly 运行 Tesseract,因此识别引擎是托管在你设备上的。
准确率取决于扫描件的质量和所选语言。清晰、高对比度、采用受支持语言的印刷文字扫描件通常能得到出色的结果;手写体、低分辨率扫描件、含有复杂多栏排版或混合文字体系的页面,准确率会较低。请务必核对输出,尤其是人名、数字和专业术语。为获得最佳效果,请先用 PDF 纠偏工具对扫描件进行纠偏。