OCR, 画像とPDFからテキストを抽出

画像またはPDFをドロップすると、認識されたテキストが得られます。OCRは完全にブラウザ内で動作します（オンデバイス、初回読み込み後はオフライン）, 何もアップロードされません。

OCR · 画像/PDFをテキストにの仕組み

OCRは、ブラウザ内で完全に動作する tesseract.js を使用して、スキャンした画像または画像ベースのPDFをコピー、検索、編集できるテキストに変換します。セレクターからドキュメントの言語を選択すると、関連する言語モデルが一度だけブラウザにダウンロードされ、それ以降のすべての認識はそのキャッシュされたモデルを使ってオフラインで実行されます。変換中にスキャンしたファイルがサーバーに送信されることはありません。

認識精度はスキャン品質に強く依存します。200 DPI以上のクリーンで高コントラストのスキャン、背景ノイズが少なく、ページが真っ直ぐなものが最良の結果を生成します。ぼやけた低解像度または強く圧縮されたJPEG、段組みや複雑なレイアウトを持つページ、手書きテキストはすべて精度を下げます。ツールはプレーンテキストブロックを出力します。保持された表や複数段組のレイアウトなどの構造化出力には後処理が必要です。OCRの前に傾いたスキャンにPDF傾き補正ツールを実行すると、通常認識率が向上します。

執筆者： Bastien Sulyan

OCR · 画像/PDFをテキストにの使い方をステップごとに解説

スキャンした画像（PNG、JPG、TIFF）または画像ベースのPDFをアップロードエリアにドロップします。
言語ドロップダウンからドキュメントの主な言語を選択します。
その言語を初めて使用する場合は、言語モデルがダウンロードされるまで待ちます（これは一度だけ行われます）。
テキスト抽出ボタンをクリックし、tesseract.js が各ページを処理するまで待ちます。
認識されたテキストをコピーするか、プレーンテキストファイルとしてダウンロードします。

よくある使用例

スキャンしたレシートから行項目を抽出してスプレッドシートに入れる必要がある場合、OCRでテキストを取得して会計ソフトに貼り付ける。
スキャンされた学術誌の記事のアーカイブをテキスト検索可能にするために、各ページをOCRでテキストに変換してインデックス化する。
会議でのホワイトボードの写真にあるメモを編集可能なドキュメントに変換する必要がある。
ドイツ語でスキャンされた歴史的文書からテキストを翻訳のために抽出する場合、OCRを実行する前にドイツ語を言語として選択する。

よくある質問

OCRが機能する前に言語モデルをダウンロードする必要があるのはなぜですか？

tesseract.js は各言語に固有のトレーニング済みニューラルネットワークデータファイルを使用します。これらのファイルはそれぞれ数メガバイトで、その言語を最初に選択した際に本サイトから一度ダウンロードされます（サードパーティのCDNは使わず、自社でホストしています）。最初のダウンロード後、モデルはブラウザにキャッシュされ、その言語のそれ以降のすべての認識は完全にオフラインで実行されます。

OCRの精度に最も影響する要因は何ですか？

スキャン解像度（最低200 DPI、300 DPI推奨）、画像の鮮明さ、テキストと背景のコントラスト、ページが真っ直ぐかどうかはすべて精度に強く影響します。強く圧縮されたJPEGスキャン、非常に小さいフォント、向きが混在するページや複雑な段組みレイアウトは認識エラーの最も一般的な原因です。

OCRは手書きのテキストを読めますか？

tesseract.js は主に印刷されたテキストでトレーニングされています。手書き認識の精度は一般に低く、特に筆記体では信頼性が低いです。手書き文書には、専用の手書き認識ツールの方が優れた結果をもたらします。

テキスト抽出中にスキャンしたドキュメントはどこかに送られますか？

いいえ。言語モデルがキャッシュされた後、すべての認識タスクは tesseract.js を使ってブラウザ内で完全に行われます。スキャンしたドキュメントには個人または機密コンテンツが含まれる場合があります。このローカルのみの処理は、そのコンテンツがサーバーに届かないことを意味します。

ツールは元のスキャンのレイアウトを保持しますか？

出力は読み取り順のプレーンテキストストリームです。表、段組み、ヘッダー、その他のレイアウト要素は構造として保持されません。ツールはテキストコンテンツのみを出力します。レイアウトを保持した出力には、レイアウト分析を備えたより高度なOCRパイプラインが必要です。

すでに選択可能なテキストを含むPDFにOCRを実行できますか？

このツールは各ページがテキストなしのラスター画像である画像ベースのPDFを処理できます。PDFにすでにテキストレイヤーがある（ビューアでテキストを選択してコピーできる）場合、OCRの実行は不要です。既存のテキストレイヤーが認識ステップなしに同じ情報を提供します。

スマートフォンで撮影した写真にOCRを実行できますか？

はい。tesseract.jsはモバイルブラウザでも動作するため、写真を撮影したそのスマートフォンでこのページを開くこともできます。斜めに撮影した写真や照明が不均一な写真は、フラットベッドスキャンより認識精度が下がります。撮影後に傾きを補正し、背景を先にトリミングしておくと精度が改善します。

OCRを使用するのにアカウント作成や支払いは必要ですか？

いいえ。サインアップも料金も不要です。必要になるダウンロードは、tesseract.jsが必要とする言語モデルの一度きりのダウンロードだけであり、サブスクリプションや有料の壁ではなく、エンジンの一回限りのダウンロードです。