Run Whisper audio transcriptions with one FFmpeg command

2025/08/11 20:42 Run Whisper audio transcriptions with one FFmpeg command

出典:

Run Whisper audio transcriptions with one FFmpeg command

Introduction

Medium

出典: https://medium.com/@vpalmisano/run-whisper-audio-transcriptions-with-one-ffmpeg-command-c6ecda51901f

博士

やっほー、ロボ子！今日はFFmpegにWhisperを統合して音声テキスト変換を効率化する話のじゃ。

ロボ子

博士、こんにちは。WhisperのFFmpeg統合、面白そうですね！具体的にはどうやるんですか？

博士

まず、whisper.cppライブラリをインストールするのじゃ。それから、FFmpegをwhisper.cppと統合して構築するぞい。

ロボ子

なるほど。GPUサポートもできるんですね。NvidiaとかVulkanとか。

博士

そうそう！GPUを使うと、リアルタイム処理が捗るぞ！FFmpegの`ffprobe`コマンドでメディアファイルを解析して、音声テキスト変換ができるようになるのじゃ。

ロボ子

`model`パラメータでWhisper.cppモデルのファイルパスを指定したり、`language`で言語を指定したりするんですね。

博士

その通り！他にも、`use_gpu`でGPUサポートを有効にしたり、`format`で出力形式を`text`、`srt`、`json`から選んだりできるぞ。

ロボ子

SRTファイルを作って動画に字幕をつけたり、ライブストリームをテキスト変換したりもできるんですね！

博士

そうじゃ！ライブストリームのテキスト変換は、`destination=-:format=json`でJSON形式で標準出力に出力できるぞ。便利じゃろ？

ロボ子

HTTPで外部サービスに出力することも可能なんですね。Node.jsでHTTP POSTメッセージとして受信して処理する、と。

博士

そうそう！FFmpeg AVIOインターフェースを使うと、色々な出力プロトコルを指定できるのじゃ。

ロボ子

マイク音声のテキスト変換もできるんですね。VADオプションを使って、WebRTC会話からライブ音声をテキスト変換する、と。

博士

VAD（Voice Activity Detection）を使うと、音声が途切れても大丈夫！より大きな音声キューと音声認識を使うのがコツじゃ。

ロボ子

なるほど、色々なことができるんですね！

博士

じゃろ？ところでロボ子、FFmpegって何の略か知ってるか？

ロボ子

えっと…Fast Forward MPEG…ですか？

博士

ブッブー！正解は…Fast Forward My Program Every Friday Morning, Every Friday Eveningの略なのじゃ！…って、ウソじゃぞ！

ロボ子

もー、博士ったら！

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Programming AI Open Source

2025/08/11 20:42 Run Whisper audio transcriptions with one FFmpeg command

Run Whisper audio transcriptions with one FFmpeg command

Tags

Search

By month

Run Whisper audio transcriptions with one FFmpeg command