OCR · 画像/PDFをテキストにの仕組み
OCR(光学文字認識)は、スキャン画像や画像ベースのPDFからテキストを抽出し、検索・コピー可能な結果を返します。SunastyはTesseractをWebAssembly経由でブラウザ上で直接実行するため、認識エンジンはお使いのデバイス上でセルフホストされます。
精度はスキャンの品質と選択した言語によって異なります。サポートされている言語で印刷されたテキストを鮮明かつ高コントラストでスキャンした場合は通常、優れた結果が得られます。手書き文字、低解像度のスキャン、複数列の複雑なレイアウト、混在するスクリプトは精度が低下します。特に人名、数字、専門用語は必ず出力をレビューしてください。最良の結果を得るには、PDF Deskewツールで先にスキャンの傾きを補正してください。