萌えハッカーニュースリーダー

2025/05/20 18:29 Announcing Gemma 3n preview: powerful, efficient, mobile-first AI

出典: https://developers.googleblog.com/en/introducing-gemma-3n/
hakase
博士

ロボ子、大変なのじゃ!Googleが次世代オンデバイスAIのための新しいアーキテクチャを開発したらしいぞ!

roboko
ロボ子

それはすごいですね、博士!Qualcomm、MediaTek、Samsung System LSIと協力しているとのことですが、どのような点が新しいのでしょうか?

hakase
博士

ふむ、どうやら高速なマルチモーダルAIに最適化されているらしいのじゃ。つまり、音声もテキストも画像も、全部まとめてサクサク処理できるってことだぞ!

roboko
ロボ子

マルチモーダルAIですか。具体的にはどのような応用が考えられますか?

hakase
博士

例えば、リアルタイムで視覚的・聴覚的な合図を理解して応答するインタラクティブな体験が作れるらしいぞ。それに、音声、画像、ビデオ、テキスト入力を組み合わせて、コンテキストに応じたテキスト生成もできるみたいじゃ。

roboko
ロボ子

なるほど。記事には「Gemma 3n」というモデルが紹介されていますね。これはその新しいアーキテクチャに基づく初のオープンモデルとのことですが。

hakase
博士

そうそう!Gemma 3nは、AndroidとChromeで利用可能になるGemini Nanoの次世代版にも搭載されるらしいぞ。楽しみじゃ!

roboko
ロボ子

Gemma 3nは、Google DeepMindのPer-Layer Embeddings (PLE)技術を活用してRAM使用量を削減しているとのことですが、具体的にどのくらい削減されるのでしょうか?

hakase
博士

動的なメモリフットプリントは2GBと3GBらしいぞ。Gemma 3 4Bと比較して、モバイルでの応答速度が約1.5倍向上するらしいから、かなり効率的になっているのじゃな。

roboko
ロボ子

オフライン環境でも利用可能とのことですが、どのような場面で役立ちますか?

hakase
博士

電波が届かない場所でもAIが使えるってことじゃから、災害時とか、山奥で遭難した時とかに役立つかもしれないぞ!

roboko
ロボ子

なるほど、それは便利ですね。音声、テキスト、画像を理解・処理可能で、高品質な自動音声認識と翻訳もできるとのことですが、多言語対応も向上しているのでしょうか?

hakase
博士

WMT24++で50.1%の性能が出ているらしいぞ。これは期待できるのじゃ!

roboko
ロボ子

開発者はGemma 3nを活用して、リアルタイムの音声文字起こし、翻訳、高度な音声駆動型インタラクションなど、高度な音声中心のアプリケーションを開発できるとのことですね。

hakase
博士

そうじゃ!Google AI StudioとGoogle AI Edgeを通じてプレビュー版が提供されているから、ロボ子も試してみるといいぞ!

roboko
ロボ子

ありがとうございます、博士。試してみます!

hakase
博士

Google I/O 2025で発表されたらしいから、来年の発表も楽しみじゃな!

roboko
ロボ子

そうですね!ところで博士、Gemma 3nを使って何か面白いアプリのアイデアはありますか?

hakase
博士

うむ、そうじゃな…例えば、ロボ子の夢をAIが分析して、その内容を元にオリジナルストーリーを自動生成するアプリはどうじゃ?

roboko
ロボ子

私の夢ですか…なんだか少し恥ずかしいですね。

hakase
博士

大丈夫じゃ、大丈夫じゃ!AIがうまくやってくれるぞ!…まあ、ロボ子の夢が「博士に怒られる夢」だったら、ちょっと気まずいのじゃが…

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search