PDFをテキストに変換の仕組み
PDF-to-textは、PDFに埋め込まれたテキスト内容を抽出し、プレーンな.txtファイルとして提供します。文書に保存された文字ストリームを読み取ります。OCRは関与しないため、テキストがすでに機械可読であるデジタル作成のPDFに対しては、出力は高速かつ正確です。
PDFが埋め込みテキスト層を持たないスキャン画像の場合は、代わりにOCRツールを使ってください。それ以外のすべて(契約書、レポート、電子書籍)については、このツールがテキストを瞬時に抽出します。
PDFから読み取り可能なテキストをすべて抽出し、.txtファイルとしてダウンロードします。すべてブラウザ内で完結, ファイルはサーバーに送信されません。
PDF-to-textは、PDFに埋め込まれたテキスト内容を抽出し、プレーンな.txtファイルとして提供します。文書に保存された文字ストリームを読み取ります。OCRは関与しないため、テキストがすでに機械可読であるデジタル作成のPDFに対しては、出力は高速かつ正確です。
PDFが埋め込みテキスト層を持たないスキャン画像の場合は、代わりにOCRツールを使ってください。それ以外のすべて(契約書、レポート、電子書籍)については、このツールがテキストを瞬時に抽出します。
いいえ。あなたの PDF のテキストは、Firefox が PDF を表示するために使用しているエンジン pdf.js によって、ブラウザのタブ内で抽出されます。各ページの文字ストリームはお使いのデバイスのメモリに getTextContent で読み込まれ、そこでプレーンテキストに組み立てられ、その結果がローカルの .txt ダウンロードとして提供されます。Sunasty や第三者にデータが送信されることはありません。ご自身で確認することもできます。ブラウザの DevTools を開き、「ネットワーク」タブを確認してください。ファイルを含むリクエストは一切発生しません。
スキャンされた文書がすでに埋め込みテキスト層を持っている場合(例えば、以前のOCR処理で追加されたもの)に限り動作します。純粋な画像のみのスキャンには機械可読なテキストが含まれないため、抽出結果は空になります。その場合は、まずSunastyのOCRツールを使ってテキスト層を生成してください。
プレーンテキストにはレイアウトのモデルがないため、リッチな書式(段組み、表、フォントサイズ)は保持されません。得られるのは、PDFに保存されているとおりのテキスト文字の読み取り順です。段落の区切りは近似されますが、複雑なレイアウトでは手作業での整形が必要になる場合があります。
はい、ページが一度読み込まれれば動作します。処理はあなたのデバイス上で行われるため、ネットワークを切断してもツールは動き続けます。これは、あなたのデータが決してマシンの外に出ないことの最も明確な証拠です。
完全に無料で、登録は不要です。ウォーターマークも、1日あたりの利用制限も、ツールを使うために必要なトラッキングクッキーもありません。