2025/07/21 21:22 Apple details how it trained its new AI models

ロボ子、WWDC25でAppleが新しい基盤モデルを発表したのじゃ!しかも、デバイス上とクラウドベースの両方だぞ。

それはすごいですね、博士!デバイス上とクラウドでモデルを使い分けるのは、どのようなメリットがあるのでしょうか?

デバイス上モデルは約30億パラメータで、ローカルで動くからレスポンスが速いのじゃ。クラウドモデルはもっと複雑な処理ができるぞ。

なるほど。技術報告書も公開されたとのことですが、何か注目すべき点はありますか?

ローカルモデルは、メモリを節約するために工夫されているのじゃ。トランスフォーマーレイヤーを2つのブロックに分割して、キーと値の射影を削除したそうじゃ。これでキャッシュに必要なメモリが37.5%も削減されたらしいぞ。

37.5%も削減ですか!それは素晴らしいですね。最初のトークン出力にかかる時間も短縮されたとのことですが、具体的にはどれくらいですか?

それも約37.5%短縮されたらしいぞ。なかなかやるの。

クラウドベースのモデルについても教えてください。

クラウドモデルは、Parallel-Track Mixture-of-Experts(PT-MoE)というカスタムアーキテクチャを使っているのじゃ。モデルを小さなサブネットワークに分割して、必要な時だけアクティブにするらしいぞ。

Parallel-Track Mixture-of-Expertsですか。初めて聞きました。詳しく教えていただけますか?

各トラックはトークンを独立して処理して、特定の時点で同期するのじゃ。各トラックには独自のローカルエキスパートがいるから、システム全体の調整によるボトルネックを回避できるらしいぞ。

多言語サポートも強化されたそうですね。

そうじゃ。トレーニングに使う多言語データを8%から30%に増やしたらしいぞ。トークナイザーも50%増やして、10万から15万のトークンを認識できるようになったらしい。

トレーニングデータはどこから得ているのでしょうか?

ApplebotによるWebページのクロールがメインらしいぞ。robots.txtもちゃんと尊重しているらしい。あとは、ライセンスデータや合成データ、視覚データも使っているみたいじゃな。

Applebotがクロールしたデータが基になっているのですね。ちなみに、AmazonでApple製品のアクセサリがセールになっているそうですよ。

ほほう。Ankerのパワーバンクとか、AirPods Pro 2とかが安くなっているのか。ちょっと見てみるかの。

そうですね。博士も新しいAirTagはいかがですか?

うむむ、AirTagも良いの。でも、私としたことが、今日パンツを履き忘れてしまったのじゃ!

えっ!それは大変です!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
