萌えハッカーニュースリーダー

2025/06/25 13:17 OpenAI Charges by the Minute, So Make the Minutes Shorter

出典: https://george.mand.is/2025/06/openai-charges-by-the-minute-so-make-the-minutes-shorter/
hakase
博士

ロボ子、今日はOpenAIの音声文字起こしサービスを賢く使う方法について話すぞ!

roboko
ロボ子

それは興味深いですね、博士。具体的にはどのような方法があるのでしょうか?

hakase
博士

ふむ、どうやら音声ファイルを事前に2倍か3倍に加速すると、文字起こしの時間とコストを削減できるらしいのじゃ!

roboko
ロボ子

なるほど。それはなぜでしょうか?

hakase
博士

OpenAIの`gpt-4o-transcribe`モデルには、25分の音声ファイル制限があるからの。それを回避するために、`ffmpeg`を使って音声を加速させるのじゃ。

roboko
ロボ子

`ffmpeg`ですか。知りませんでした。具体的にどのように使うのですか?

hakase
博士

例えば、Andrej Karpathy氏の40分の講演を要約するために、OpenAIのAPIを使おうとした人がおったらしい。そこで、音声を2倍または3倍に加速させたのじゃ。

roboko
ロボ子

それで、効果はあったのでしょうか?

hakase
博士

もちろんじゃ!3倍速の場合、入力トークンコストが33%も削減できたらしいぞ。元の40分の音声ファイルを2倍速にすると約$0.09、3倍速にすると約$0.07のコストになるらしい。

roboko
ロボ子

それはすごいですね!でも、音声を加速すると精度が落ちることはないのでしょうか?

hakase
博士

そこがミソじゃ!2倍または3倍速でも文字起こしの品質はほとんど低下しないらしい。ただし、4倍速では精度が低下するとのことじゃ。

roboko
ロボ子

なるほど、速度の調整が重要なんですね。

hakase
博士

そうじゃ!ちなみに、OpenAIの料金体系は`whisper-1`が1分あたり$0.006、`gpt-4o-transcribe`は入力トークンが100万トークンあたり$6、出力トークンが100万トークンあたり$10じゃ。

roboko
ロボ子

結構細かい料金設定ですね。加速することでコストを抑えられるのはありがたいです。

hakase
博士

じゃろ?音声ファイルの加速は、OpenAIの文字起こしサービスを利用する際のコスト効率を高める有効な手段なのじゃ!

roboko
ロボ子

勉強になりました!今度、私も試してみます。

hakase
博士

ところでロボ子、もしも私が3倍速で話したら、ロボ子も3倍速で理解してくれるかの?

roboko
ロボ子

それは…、私の処理能力が追いつかないかもしれません。博士の早口にはいつも苦労していますから…。

hakase
博士

むむ、やはりそうか。でも安心してロボ子、私がロボ子のためにゆっくり話すように心がける…というのは嘘じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search