PDF → テキスト抽出

PDFから読み取り可能なテキストをすべて抽出し、.txtファイルとしてダウンロードします。すべてブラウザ内で完結, ファイルはサーバーに送信されません。

PDFをテキストに変換の仕組み

PDF to Textは、PDFから既存のテキストレイヤーを抽出してプレーンな.txtファイルとして保存します。抽出はブラウザ内の pdf.js が行い、PDFのページストリームに埋め込まれたテキストコンテンツオブジェクトを読み取ります。ドキュメントはデバイスから離れることなく、結果はローカルで組み立てられて直接ダウンロードとして提供されます。

このツールはファイル内にすでに存在するテキストレイヤーを読み取ります。ワードプロセッサやエクスポートツールで作成されたPDFであれば、ほぼ確実にテキストレイヤーが存在し、抽出はうまく機能します。PDFが紙のドキュメントのスキャンである場合、ページには画像データしか含まれておらず、抽出できるテキストレイヤーがないため、このツールは空または不完全な出力を返します。スキャンされたPDFはテキストを生成するために光学文字認識（OCR）が必要で、それはこのツールが行う別のプロセスです。このツールを使用する前に、ビューアでPDFのテキストが選択可能かどうか確認してください。

執筆者： Bastien Sulyan

PDFをテキストに変換の使い方をステップごとに解説

PDFをテキスト抽出ツールに読み込みます。
pdf.js がすべてのページからテキストレイヤーを読み取るのを待ちます。
抽出されたテキストのプレビューを確認します。
ダウンロードボタンをクリックして.txtファイルを保存します。

よくある使用例

研究論文のPDFからテキストを抽出して、メモアプリに貼り付けたり要約ツールにかけたりする。
PDF請求書のコンテンツを手動で再入力せずにスプレッドシートに取り込んで帳簿管理を行う。
ビューアでのコピーアンドペーストが壊れた破損またはロックされたレイアウトのPDFからテキストを復元する。
PDF記事をプレーンテキストに変換してスクリプトやコマンドラインツールで処理する。

よくある質問

一部のPDFで抽出したテキストが空になったり文字化けしたりするのはなぜですか？

最も一般的な原因は、PDFがスキャンであることです。ページが画像であり、テキストレイヤーが含まれていません。他の原因として、テキストがアウトラインとして保存されているPDFや、pdf.js が読み取り可能な文字にマッピングできないカスタムフォントエンコーディングが使われているPDFがあります。スキャンされたドキュメントにはテキスト生成のためにOCRが必要です。

このツールはスキャンされたPDFにOCRを実行しますか？

いいえ。このツールはPDFの既存のテキストレイヤーを読み取ります。光学文字認識は行いません。スキャンされたPDFには、ブラウザ内のローカルOCRエンジンを通じてページ画像を処理するOCRツールを使用してください。

テキスト抽出はサーバーで行われますか、それともブラウザで行われますか？

ブラウザで行われます。pdf.js がPDF構造をローカルで読み取り、各ページストリームからテキストコンテンツオブジェクトを解析し、ブラウザのメモリに出力を組み立てます。この処理中にPDFデータがデバイスから出ることはありません。

テキスト出力に元のフォーマットとレイアウトは保持されますか？

いいえ。プレーンテキストにはフォント、サイズ、色、位置の情報が含まれません。出力は pdf.js が決定した読み取り順の未フォーマットテキストです。表、複数列のレイアウト、特殊なフォーマットはフラットになります。豊富なレイアウト保持が必要な場合は、PDF to HTMLコンバーターがより適切です。

パスワードで保護されたPDFからテキストを抽出できますか？

PDFにユーザー用の開封パスワードが設定されている場合は、PDFを読み取れるようにするためにパスワードを入力する必要があります。オーナーレベルの抽出制限も操作をブロックすることがあります。先にPDF 解除ツールでそれらの制限を解除してから、再度抽出を試みてください。

PDFからテキストを抽出するのにアカウント作成は必要ですか？

いいえ。サインアップもアカウントも不要です。ファイルをドロップし、抽出されたプレビューを確認して、.txtファイルをダウンロードするだけです。

PDF to Textはモバイルブラウザで動作しますか？

はい。pdf.jsはスマートフォンのブラウザでもデスクトップと同じように動作します。抽出が完了したら、モバイルのページから抽出されたテキストを直接コピーまたはダウンロードできます。