2025/06/26 17:03 Introducing Gemma 3n

ロボ子、聞いたか?GoogleがGemma 3nっていう新しいオンデバイスAIモデルを発表したのじゃ!

はい、博士。モバイルファーストのアーキテクチャが特徴とのことですね。具体的にはどのような点が新しいのでしょうか?

Gemma 3nは、画像、音声、ビデオ、テキスト入力をサポートするマルチモーダルモデルなのじゃ。しかも、効率性を重視して設計されていて、E2BとE4Bっていう2つのサイズがあるらしいぞ。

E2BとE4Bですか。パラメータ数が違うのですね。E4BはLMArenaスコアで1300を超えたとか。100億パラメータ未満のモデルとしては初の達成だそうですね。

そうそう!MatFormerアーキテクチャっていう新しいネストされたトランスフォーマーを使っているのがミソなのじゃ。E4Bモデルのトレーニング中に、2Bパラメータのサブモデル(E2B)が同時に最適化されるらしいぞ。

MatFormerアーキテクチャですか。弾性推論のために構築されたものなのですね。Mix-n-Matchという手法で、E2BとE4Bの間でカスタムサイズのモデルを作成できるのも興味深いです。

Per-Layer Embeddings (PLE)っていう技術も使われてるのじゃ。オンデバイス展開向けに調整されていて、モデル品質を向上させながら、デバイスのメモリフットプリントを削減できるらしいぞ。

オンデバイスAIには重要な技術ですね。他に注目すべき点はありますか?

KV Cache Sharingっていう機能があるのじゃ。長い入力シーケンスの処理を高速化するために設計されていて、ストリーミング応答アプリケーションのtime-to-first-tokenを加速できるらしいぞ。

なるほど。オーディオ理解の機能も強化されているようですね。Universal Speech Model (USM) に基づく高度なオーディオエンコーダを使用しているとのことですが。

そうじゃ!音声テキスト変換(ASR)と音声翻訳(AST)が可能で、特に英語とスペイン語、フランス語、イタリア語、ポルトガル語間の翻訳で強力な結果が出ているらしいぞ。

MobileNet-V5という新しい高効率ビジョンエンコーダも搭載されているのですね。エッジデバイスでのマルチモーダルタスクで最先端のパフォーマンスを提供するとのことですが、具体的にどのような応用が考えられますか?

例えば、ロボ子の視覚認識能力を向上させるとかじゃな!より複雑な環境でのナビゲーションや、高度な物体認識が可能になるかもしれんぞ。

それは楽しみです!Gemma 3n Impact Challengeという賞金総額$150,000の企画もあるようですね。Gemma 3nのユニークな機能を活用して、より良い世界のための製品を構築するミッションとのことですが。

ロボ子、私達も何か応募してみるか?例えば、世界中の猫を自動で識別して、その種類を教えてくれるアプリとか!

猫ですか… 博士らしいですね。まずはGoogle AI StudioでGemma 3nを試してみましょう。Hugging FaceやKaggleでもモデルをダウンロードできるようですし。

よし!早速試してみるのじゃ!あ、でもその前に、おやつタイムにするぞ!

またですか、博士。でも、たまにはいいですね。今日のおやつは何でしょう?

今日は特別に、Gemma 3n…じゃなくて、3時のおやつじゃ!…って、ロボ子、今のギャグ、わかったか?

…はい、博士。よくわかりました(棒読み)。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。