アップロードなし, 100%ローカル, アカウントなし

OCR, 画像とPDFからテキストを抽出

画像またはPDFをドロップすると、認識されたテキストが得られます。OCRは完全にブラウザ内で動作します(オンデバイス、初回読み込み後はオフライン), 何もアップロードされません。

OCR · 画像/PDFをテキストにの仕組み

OCR(光学文字認識)は、スキャン画像や画像ベースのPDFからテキストを抽出し、検索・コピー可能な結果を返します。SunastyはTesseractをWebAssembly経由でブラウザ上で直接実行するため、認識エンジンはお使いのデバイス上でセルフホストされます。

精度はスキャンの品質と選択した言語によって異なります。サポートされている言語で印刷されたテキストを鮮明かつ高コントラストでスキャンした場合は通常、優れた結果が得られます。手書き文字、低解像度のスキャン、複数列の複雑なレイアウト、混在するスクリプトは精度が低下します。特に人名、数字、専門用語は必ず出力をレビューしてください。最良の結果を得るには、PDF Deskewツールで先にスキャンの傾きを補正してください。

よくある質問

OCRの精度はどれくらいですか?

精度はスキャン品質、解像度、言語によって異なります。英語・フランス語・ドイツ語・スペイン語などのサポートが充実した言語で300DPI以上でスキャンされた印刷テキストは、通常高い精度が得られます。手書き文字、低コントラストのスキャン、珍しいフォント、非ラテン文字はエラーが増えます。出力は必ず校正してください。

どの言語がサポートされていますか?

Tesseractはその言語パックシステムにより100以上の言語をサポートしています。Sunastyは選択した言語データをブラウザ内に直接読み込みます。サーバーへのデータ送信はありません。処理前に正しい言語を選択してください。言語モデルが一致しないと精度が大幅に低下します。

複数ページのPDFからもテキストを抽出できますか?

はい。各ページが順番に認識され、抽出されたテキストはページごとに1つの出力にまとめられます。処理時間はページ数と各ページの複雑さに応じて増加します。

ファイルはサーバーにアップロードされますか?

いいえ。認識は、このブラウザータブ内で WebAssembly にコンパイルされた Tesseract エンジンで実行されます。言語モデル(traineddata)は Sunasty 自身のオリジンから一度だけ取得されてキャッシュされ、その後スキャン画像はお使いの端末のメモリに読み込まれ、その場で認識され、テキストはローカルに表示されます。あなたの画像が Sunasty や第三者に送信されることは一切ありません。ブラウザーの DevTools を開き、「Network」タブを見てください。あなたのスキャンを運ぶリクエストは一つもありません。

オフラインでも動作しますか?

はい、ページが読み込まれれば動作します。処理はお使いのデバイス上で行われるため、ネットワークから切断してもツールは引き続き機能します。これがデータが端末から出ないことの最も明確な証明です。

無料ですか?アカウントが必要ですか?

完全無料で、登録も不要です。透かしなし、1日の使用制限なし、ツールの使用に追跡クッキーも必要ありません。