ハウツー

スキャンしたPDFからテキストを抽出する

スキャンしたPDFは本質的にページの写真です。テキストは正しく見えるのに、文字ではなくピクセルとして保存されているため、選択も検索もコピーもできません。光学文字認識(OCR)は、それらのピクセルを、文書に貼り付けたり、Ctrl+Fで検索したり、後で索引化したりできる実際のテキストに戻します。このガイドは端末上で動くOCRエンジンを使うので、あなたのスキャンがコンピューターから外に出ることはありません。

手順

OCRツールを開き、スキャンしたPDFまたは画像ファイルをドロップします。このツールはPDF、PNG、JPEG、WebP、その他いくつかの画像形式を受け付けます。複数ページのスキャンには、PDF形式が単一の入力として最も便利です。
文書内のテキストの言語を選びます。既定は英語です。正しい言語を選ぶことで、OCRエンジンが適切な字形を選べるようになり、アクセント付き文字や地域固有の句読点の精度が向上します。
実行をクリックし、OCRが完了するのを待ちます。エンジン(Tesseract、WebAssemblyにコンパイル済み)は完全にブラウザ内で動作します。A4 1ページの処理は、最近の端末なら数秒で済みます。結果はダウンロードしてそこからコピーできるプレーンテキストファイルです。

OCRの品質がスキャンの品質に左右される理由

OCRの精度は入力の品質で大きく決まります。印刷文書(レーザープリンターやコピー機の出力)をきれいに300 DPIでスキャンしたものは、ほぼ完璧な結果をもたらします。暗い照明で斜めに撮ったぼやけたスマホ写真は、文字の誤認識、単語の結合、行の欠落を伴う、はるかに悪い出力になります。結果が悪い場合は、元のスキャンを改善してみてください。ページを正面から、良い光のもとで撮り、平らに保ちます。PDF傾き補正ツールを使えば、OCRをかける前に少し回転したスキャンをまっすぐにできます。

抽出したテキストで何をするか

出力は、認識された文字を読む順に並べたプレーンテキストファイルです。ワープロに貼り付けたり、検索したり、翻訳したり、編集する文書の出発点として使ったりできます。検索可能なPDF(元のページ画像に透明なテキストレイヤーを重ねたもの)が欲しい場合は、通常Adobe AcrobatやOCRmyPDFのような専用のデスクトップソフトを使います。ここの端末上ツールはプレーンテキストのみを出力しますが、それがほとんどの用途で実際に必要とされるものです。

このガイドで使うツール

よくある質問

私のスキャンはリモートサーバーにアップロードされますか?

いいえ。TesseractはWebAssemblyにコンパイルされ、あなたのブラウザのタブ内で直接動作します。言語モデル(英語の高速モデルで約4 MB)はこのサイトから一度だけダウンロードされ、その後はオフライン利用のためにキャッシュされたままになります。あなたのファイルはローカルディスクから読み込まれてメモリ内で処理され、サーバーに送られることは一切ありません。これはスキャンした契約書、医療文書、個人的な書簡では特に重要です。

私の文書でOCRの出力が不完全なのはなぜですか?

OCRのエラーは、スキャンの品質(低解像度、ぼけ、傾き、影)や、珍しいフォントやレイアウトから生じます。ページが完全にまっすぐでない場合は、まず傾き補正ツールを試してください。手書きテキストでは、Tesseractの精度は大きく落ちます。印刷された文字で訓練されており、手書きではないからです。混在した文書(印刷テキストと手書きの署名)では、印刷部分は通常正しく出力され、手書き部分は文字化けするか省かれます。