ハウツー

動画から音声トラックを抽出する

通勤中に聴きたい講義、コンサートのクリップ、文字起こししたいインタビュー。必要なのは音声だけで、映像はただの重荷ということはよくあります。トラックの抽出はブラウザで1分、ファイルがマシンから出ることはありません。

手順

音声抽出ツールを開いて動画をドロップします。MP4が定番ですが、MOV、MKV、WebM、AVIも使えます。何もアップロードされません。
出力形式と品質を選びます。聴く用途なら192 kbpsのMP3が安全な既定値。WAVは可逆で、編集向け。AAC/M4AとOGGは効率の良いモダンな選択肢です。各メニューの下のヒントが、どんなときに重要かを教えてくれます。
実行して音声ファイルをダウンロードします。変換はWebAssemblyにコンパイルされたFFmpegがタブの中で行い、進行状況バーがリアルタイムで追跡します。

どの形式を選ぶべき？

MP3は今世紀に作られたあらゆる機器で再生できます。ポッドキャスト、講義、共有にはこれが正解です。WAVは無圧縮。音声を次にエディターへ持ち込むなら選んでください。後から圧縮することはいつでもできますが、その逆は決してできないからです。AAC（M4A）は同じビットレートでMP3より高音質で、Appleデバイスのネイティブ形式。OGGはそのオープンな対応物です。迷ったら192 kbpsのMP3を。

カットして、変換して、その先へ

抽出はたいてい最初の一歩にすぎません。本当に欲しい部分は音声カッターで（フェードイン・フェードアウト付きで）切り出せますし、着信音のプリセットもあります。後で音声形式同士を変換するなら音声コンバーターをどうぞ。すべて同じブラウザでローカルに動くので、ツールをつないでも、何かをどこかへ再アップロードすることには決してなりません。

このガイドで使うツール

よくある質問

320 kbpsを選ぶと音は良くなる？

いいえ、その理由は知っておく価値があります。抽出されたトラックが、動画の中にある音声より良い音になることは決してありません。高いビットレートは、すでにあるものをより多く保持するだけです。普通の話し声なら128から192 kbpsで十分。320 kbpsは主にファイルを大きくするだけです。

初回起動時の約 30 MB のダウンロードには何が含まれていますか?

それは FFmpeg の WebAssembly バンドルです。あなたの動画コンテナを分離(demux)し、音声トラックを再エンコードするエンジンです。これは一度きりのコストで、その後はブラウザにキャッシュされ、次回以降のセッションで使われます。動画そのものは決してアップロードされません。ブラウザの File API で読み込まれ、メモリ内のバッファを通じて WASM モジュールへ渡され、音声の出力はそのままダウンロードへ書き出されます。処理中に「ネットワーク」パネルを Fetch/XHR で絞り込めば確認できます。目にする唯一の送信リクエストはまさに初回読み込み時のもので、それが取得するのはあなたのデータではなく WASM バイナリです。