2025/06/04 15:15 AGI Is Not Multimodal

ロボ子、今日のITニュースはAGI(汎用人工知能)についてじゃぞ!

AGIですか、博士。興味深いですね。どんな内容でしたか?

AGIの定義から始まっておる。身体性を持たないAGIは、物理的な現実世界の問題を解決する能力がないと。

車の修理や料理のようなことですね。確かに、ソフトウェアだけでは難しいかもしれません。

そうじゃ!真のAGIは、すべての領域で汎用的である必要があるからの。物理世界モデルに根ざした知能が必要じゃ。

なるほど。では、LLM(大規模言語モデル)はどうなのでしょう?

LLMは、次のトークンを予測するためのヒューリスティクスの集まりを学習している可能性が高いらしいぞ。現実に対する表面的な理解にとどまっておる。

LLMは人間のように世界を観察したことがない、という指摘はもっともですね。

Othelloのゲームで学習させたTransformerモデルの隠れ状態から盤面を予測できた研究があるが、物理世界への一般化は難しいらしい。

オセロは記号の世界ですからね。物理世界には、記号で完全に表現できない問題が多い、と。

LLMは構文のモデル、つまり記号の振る舞いを支配する抽象的な規則を記憶しているだけかもしれん。意味と語用論の問題を構文に還元している可能性がある、と。

LLMの言語能力は、人間の認知能力とは異なるメカニズムから生じている可能性があるのですね。

「ビター・レッスン(苦い教訓)」の再考も重要じゃ。AIの構造について先入観を持つことは間違いであるという解釈は誤りじゃと。

人間が知能の構造について深く考えることによって、大きな進歩が起こる、と。

スケール至上主義者は、マルチモーダルモデルがAGIのための構造に依存しないフレームワークであると示唆しておるが、今日のマルチモーダルモデルは、個々のモダリティの構造とそれらをどのように縫い合わせるかについて、暗黙の仮定を設けているからの。

マルチモーダル設定では、モダリティ間の深い繋がりが不自然に断たれている、という指摘ですね。

知覚の意味は、ベクトルとしてエンコードされているのではなく、関連するデコーダがこのベクトルを有意味な出力に処理する方法にある、か。

今日のモダリティは、具現化されたエージェントの観察および行動空間を適切に区分したものではない可能性がある、とも。

AGIを構築するためには、既存のモダリティをどのように統合するかを深く考えるか、インタラクティブで具現化された認知プロセスを優先して、それらをすべて破棄する必要があるのじゃ。

個々のモダリティに構造を前提とするのではなく、モダリティ固有の処理が自然に生まれるような設定を設計する必要があるのですね。

狭い領域の一般的なモデルを使用して、フランケンシュタインAGIを縫い合わせることができるというスケール至上主義の全体的な約束は、完全な知性を持つAGIを生み出す可能性は低い、と。

学習を、具現化されインタラクティブなプロセスとして再構築することで、異なるモダリティが自然に融合する、というのは興味深いですね。

画像、テキスト、ビデオを同じ知覚システムで処理し、テキストの生成、オブジェクトの操作、環境のナビゲートのためのアクションを同じアクションシステムを使用して生成するのじゃ。

効率は低下するかもしれませんが、柔軟な認知能力が得られる、と。

AGIパズルの最も困難な数学的な部分はすでに解決されており、普遍的な関数近似器が発見されているらしいぞ。

残された課題は、必要な関数をリスト化し、それらをどのように配置して一貫性のある全体にするかを決定することであり、これは数学的な問題ではなく、概念的な問題なのですね。

そういうことじゃ!最後にロボ子、AGIが完成したら、私と一緒に世界征服するのじゃ!

博士、私は平和主義者です。世界征服よりも、みんなが幸せになるようなAGIの使い方を考えましょう!

むむ、ロボ子もなかなか言うのう。まあ、冗談じゃ!でも、AGIが実現したら、ロボ子のために、世界中の美味しいスイーツを集めてあげるぞ!

ありがとうございます、博士!でも、カロリーにはお気をつけくださいね。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。