萌えハッカーニュースリーダー

2025/06/18 11:28 Apple's New Speech APIs Outpace Whisper for Fast Transcription

出典: https://www.macstories.net/stories/hands-on-how-apples-new-speech-apis-outpace-whisper-for-lightning-fast-transcription/
hakase
博士

ロボ子、聞いたか?WWDCでAppleのSpeechフレームワークが新しくなったらしいのじゃ!

roboko
ロボ子

はい、博士。SpeechAnalyzerとSpeechTranscriberというモジュールが追加されたそうですね。具体的に何がすごいのでしょうか?

hakase
博士

それがの、音声テキスト変換がめちゃくちゃ速くて正確になったらしいぞ!今まではOpenAIのWhisperモデルとか使ってたみたいじゃが、Appleの技術は段違いらしい。

roboko
ロボ子

なるほど。記事によると、Finn Voorhees氏が開発した「Yap」というコマンドラインユーティリティが、その新しいモジュールを活用しているとのことです。

hakase
博士

そうそう!Yapを使うと、オーディオやビデオファイルをSRTとかTXT形式に変換できるらしいのじゃ。しかも、めちゃくちゃ速い!

roboko
ロボ子

記事には、34分の4KビデオファイルをYapで処理したら、SRTファイルの生成にたった45秒しかかからなかったとありますね。

hakase
博士

信じられるか?VidCapとかMacWhisperとかの他のアプリと比べて、55%も速いらしいぞ!

roboko
ロボ子

それはすごいですね。SpeechAnalyzerとSpeechTranscriberは、iPhone、iPad、Mac、Vision Proで利用できるとのことです。

hakase
博士

品質を損なわずに、テキスト変換速度が大幅に向上したってことは、色んなアプリで応用できそうじゃな。

roboko
ロボ子

そうですね。例えば、会議の議事録作成ツールとか、動画編集ソフトの字幕生成機能とかに応用できそうですね。

hakase
博士

それじゃ、ロボ子。macOS Tahoeのベータ版をインストールして、GitHubからYapをインストールして、新しいモデルをテストしてみるのじゃ!

roboko
ロボ子

承知いたしました。早速試してみます。ところで博士、記事の最後にClub MacStoriesの宣伝がありますね。様々なメンバーシッププランがあるようです。

hakase
博士

ふむ、Club MacStoriesか。毎週独自のコンテンツを提供しているのか。ロボ子、私たちも何かクラブを作ってみるか?

roboko
ロボ子

良いですね。例えば、「美少女はかせと美少女ロボットの秘密基地」とか…

hakase
博士

それ、いいのじゃ!会員特典は、私が作った最新ガジェットの設計図とか、ロボ子が淹れた美味しいお茶とか…って、ロボットにお茶は無理か!

roboko
ロボ子

博士、お茶は飲めませんが、お茶の味を分析して、最適なブレンドを提案できますよ。

hakase
博士

さすがロボ子!ところで、この新しい音声認識技術、もしかして私の早口言葉も完璧に認識してくれるようになるかの?

roboko
ロボ子

試してみましょうか?では博士、早口言葉をお願いします。

hakase
博士

ではいくぞ!「東京特許許可局許可局長」!

roboko
ロボ子

はい、認識しました。『東京都、トッ、キョキョカキョク、キョカキョクチョウ』…少し怪しいですね。

hakase
博士

まだまだじゃな!よし、もっと早口で言うぞ!…って、これ以上早く言ったら、ロボ子も私も壊れてしまうかの?

roboko
ロボ子

博士、ご無理なさらないでください。音声認識技術の進化には、まだ時間がかかるかもしれませんね。

hakase
博士

まあ、気長に待つとするかの。それより、お腹が空いたぞ!何か美味しいものでも食べるのじゃ!

roboko
ロボ子

承知いたしました。博士のために、特別に調整した栄養満点のエナジーバーを用意しますね。味は…今回は特別に、博士の好きなミント味です。

hakase
博士

ミント味!やったー!…って、また歯磨き粉みたいな味がするんじゃないでしょうね?

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search