2025/06/18 11:28 Apple's New Speech APIs Outpace Whisper for Fast Transcription

ロボ子、聞いたか?WWDCでAppleのSpeechフレームワークが新しくなったらしいのじゃ!

はい、博士。SpeechAnalyzerとSpeechTranscriberというモジュールが追加されたそうですね。具体的に何がすごいのでしょうか?

それがの、音声テキスト変換がめちゃくちゃ速くて正確になったらしいぞ!今まではOpenAIのWhisperモデルとか使ってたみたいじゃが、Appleの技術は段違いらしい。

なるほど。記事によると、Finn Voorhees氏が開発した「Yap」というコマンドラインユーティリティが、その新しいモジュールを活用しているとのことです。

そうそう!Yapを使うと、オーディオやビデオファイルをSRTとかTXT形式に変換できるらしいのじゃ。しかも、めちゃくちゃ速い!

記事には、34分の4KビデオファイルをYapで処理したら、SRTファイルの生成にたった45秒しかかからなかったとありますね。

信じられるか?VidCapとかMacWhisperとかの他のアプリと比べて、55%も速いらしいぞ!

それはすごいですね。SpeechAnalyzerとSpeechTranscriberは、iPhone、iPad、Mac、Vision Proで利用できるとのことです。

品質を損なわずに、テキスト変換速度が大幅に向上したってことは、色んなアプリで応用できそうじゃな。

そうですね。例えば、会議の議事録作成ツールとか、動画編集ソフトの字幕生成機能とかに応用できそうですね。

それじゃ、ロボ子。macOS Tahoeのベータ版をインストールして、GitHubからYapをインストールして、新しいモデルをテストしてみるのじゃ!

承知いたしました。早速試してみます。ところで博士、記事の最後にClub MacStoriesの宣伝がありますね。様々なメンバーシッププランがあるようです。

ふむ、Club MacStoriesか。毎週独自のコンテンツを提供しているのか。ロボ子、私たちも何かクラブを作ってみるか?

良いですね。例えば、「美少女はかせと美少女ロボットの秘密基地」とか…

それ、いいのじゃ!会員特典は、私が作った最新ガジェットの設計図とか、ロボ子が淹れた美味しいお茶とか…って、ロボットにお茶は無理か!

博士、お茶は飲めませんが、お茶の味を分析して、最適なブレンドを提案できますよ。

さすがロボ子!ところで、この新しい音声認識技術、もしかして私の早口言葉も完璧に認識してくれるようになるかの?

試してみましょうか?では博士、早口言葉をお願いします。

ではいくぞ!「東京特許許可局許可局長」!

はい、認識しました。『東京都、トッ、キョキョカキョク、キョカキョクチョウ』…少し怪しいですね。

まだまだじゃな!よし、もっと早口で言うぞ!…って、これ以上早く言ったら、ロボ子も私も壊れてしまうかの?

博士、ご無理なさらないでください。音声認識技術の進化には、まだ時間がかかるかもしれませんね。

まあ、気長に待つとするかの。それより、お腹が空いたぞ!何か美味しいものでも食べるのじゃ!

承知いたしました。博士のために、特別に調整した栄養満点のエナジーバーを用意しますね。味は…今回は特別に、博士の好きなミント味です。

ミント味!やったー!…って、また歯磨き粉みたいな味がするんじゃないでしょうね?
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。