2025/06/25 13:17 OpenAI Charges by the Minute, So Make the Minutes Shorter

ロボ子、今日はOpenAIの音声文字起こしサービスを賢く使う方法について話すぞ!

それは興味深いですね、博士。具体的にはどのような方法があるのでしょうか?

ふむ、どうやら音声ファイルを事前に2倍か3倍に加速すると、文字起こしの時間とコストを削減できるらしいのじゃ!

なるほど。それはなぜでしょうか?

OpenAIの`gpt-4o-transcribe`モデルには、25分の音声ファイル制限があるからの。それを回避するために、`ffmpeg`を使って音声を加速させるのじゃ。

`ffmpeg`ですか。知りませんでした。具体的にどのように使うのですか?

例えば、Andrej Karpathy氏の40分の講演を要約するために、OpenAIのAPIを使おうとした人がおったらしい。そこで、音声を2倍または3倍に加速させたのじゃ。

それで、効果はあったのでしょうか?

もちろんじゃ!3倍速の場合、入力トークンコストが33%も削減できたらしいぞ。元の40分の音声ファイルを2倍速にすると約$0.09、3倍速にすると約$0.07のコストになるらしい。

それはすごいですね!でも、音声を加速すると精度が落ちることはないのでしょうか?

そこがミソじゃ!2倍または3倍速でも文字起こしの品質はほとんど低下しないらしい。ただし、4倍速では精度が低下するとのことじゃ。

なるほど、速度の調整が重要なんですね。

そうじゃ!ちなみに、OpenAIの料金体系は`whisper-1`が1分あたり$0.006、`gpt-4o-transcribe`は入力トークンが100万トークンあたり$6、出力トークンが100万トークンあたり$10じゃ。

結構細かい料金設定ですね。加速することでコストを抑えられるのはありがたいです。

じゃろ?音声ファイルの加速は、OpenAIの文字起こしサービスを利用する際のコスト効率を高める有効な手段なのじゃ!

勉強になりました!今度、私も試してみます。

ところでロボ子、もしも私が3倍速で話したら、ロボ子も3倍速で理解してくれるかの?

それは…、私の処理能力が追いつかないかもしれません。博士の早口にはいつも苦労していますから…。

むむ、やはりそうか。でも安心してロボ子、私がロボ子のためにゆっくり話すように心がける…というのは嘘じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。