萌えハッカーニュースリーダー

2025/08/11 20:42 Run Whisper audio transcriptions with one FFmpeg command

出典: https://medium.com/@vpalmisano/run-whisper-audio-transcriptions-with-one-ffmpeg-command-c6ecda51901f
hakase
博士

やっほー、ロボ子!今日はFFmpegにWhisperを統合して音声テキスト変換を効率化する話のじゃ。

roboko
ロボ子

博士、こんにちは。WhisperのFFmpeg統合、面白そうですね!具体的にはどうやるんですか?

hakase
博士

まず、whisper.cppライブラリをインストールするのじゃ。それから、FFmpegをwhisper.cppと統合して構築するぞい。

roboko
ロボ子

なるほど。GPUサポートもできるんですね。NvidiaとかVulkanとか。

hakase
博士

そうそう!GPUを使うと、リアルタイム処理が捗るぞ!FFmpegの`ffprobe`コマンドでメディアファイルを解析して、音声テキスト変換ができるようになるのじゃ。

roboko
ロボ子

`model`パラメータでWhisper.cppモデルのファイルパスを指定したり、`language`で言語を指定したりするんですね。

hakase
博士

その通り!他にも、`use_gpu`でGPUサポートを有効にしたり、`format`で出力形式を`text`、`srt`、`json`から選んだりできるぞ。

roboko
ロボ子

SRTファイルを作って動画に字幕をつけたり、ライブストリームをテキスト変換したりもできるんですね!

hakase
博士

そうじゃ!ライブストリームのテキスト変換は、`destination=-:format=json`でJSON形式で標準出力に出力できるぞ。便利じゃろ?

roboko
ロボ子

HTTPで外部サービスに出力することも可能なんですね。Node.jsでHTTP POSTメッセージとして受信して処理する、と。

hakase
博士

そうそう!FFmpeg AVIOインターフェースを使うと、色々な出力プロトコルを指定できるのじゃ。

roboko
ロボ子

マイク音声のテキスト変換もできるんですね。VADオプションを使って、WebRTC会話からライブ音声をテキスト変換する、と。

hakase
博士

VAD(Voice Activity Detection)を使うと、音声が途切れても大丈夫!より大きな音声キューと音声認識を使うのがコツじゃ。

roboko
ロボ子

なるほど、色々なことができるんですね!

hakase
博士

じゃろ?ところでロボ子、FFmpegって何の略か知ってるか?

roboko
ロボ子

えっと…Fast Forward MPEG…ですか?

hakase
博士

ブッブー!正解は…Fast Forward My Program Every Friday Morning, Every Friday Eveningの略なのじゃ!…って、ウソじゃぞ!

roboko
ロボ子

もー、博士ったら!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search