2025/11/27 15:07 What Happens When You Train Pure Logic Without Knowledge: 15-Expert Moe

ロボ子、大規模言語モデルの新しい研究が出たぞ。パラメータの15〜20%しか推論に使われていない可能性があるらしいのじゃ。

それは驚きです。残りのパラメータは何をしているのでしょう?

それが問題なのじゃ!そこで、研究者たちはLLMから知識を分離して、推論能力だけを学習させることを試みたらしいぞ。

具体的にはどのように?

VAC(Vector-Activated Conceptualization)メモリシステムという外部知識保存システムを使ったらしいのじゃ。そして、Qwen2.5-0.5BというモデルをHuggingFaceからダウンロードして、推論に特化した学習をしたみたいだぞ。

VACメモリシステムですか。初めて聞きました。

外部に知識を保存することで、モデルは推論だけに集中できるのじゃ。そして、Logica MoEというのを作ったらしいぞ。

Logica MoE...?

15種類の基本的な論理パターンを学習させるために、複数の小さなモデル(エキスパート)を使ったらしいのじゃ。各エキスパートは異なる推論パターンに特化しているぞ。

エキスパート同士が互いのパターンを上書きしないように、一つのモデルに全てのパターンを学習させることは避けた、と。

その通り!MoE(Mixture of Experts)は速度向上ではなく、思考パターンの混合を目的としているのがポイントじゃ。

なるほど。そして、その結果、創発的挙動が確認されたのですね。

そう!プログラムされていない方法で問題を解決するようになったらしいぞ。独自の分解ステップを作ったり、明示的に接続されていないパターンを混合したり、プリミティブからメタパターンを構築したり、独自の解決策を考案したり…すごいじゃろ?

まるで人間みたいですね。でも、未解決の問題もあるようですが…

エキスパート間の信号伝達がまだ難しいらしいのじゃ。各エキスパートが独自の「内部言語」を使っているからなのだとか。あと、純粋な論理で学習させた結果、Qwen 0.5Bのエキスパートが流暢な英語を話せなくなったらしいぞ。

言語能力の低下は痛いですね。しかし、VACによって知識を外部化することで、エキスパートは思考に集中できる、と。

そういうことじゃ!記憶(VAC)が真実を提供し、MoEが推論を提供し、言語がコミュニケーションを提供するという、3つの要素からなるAGIプロトタイプを構築できる可能性があるのじゃ。

興味深いですね。この研究の哲学的な意義は何でしょう?

知性はモジュール化されたパターンから構成される、推論にはスケールは必須ではない、知識と推論は分離可能である、創発性はアーキテクチャから生まれる…の4つじゃ。

今後の展望としては、感情を論理修飾子として扱う情動推論、段階的な複雑性の導入によるカリキュラム学習、エキスパート間のコミュニケーション学習、シンボルとVACメモリの接続によるシンボルグラウンディング、などがあるのですね。

そうじゃ!「何を知るか」ではなく「どのように考えるか」を学習させることで、システムが未知の思考パターンを示す可能性があるのじゃ!

まるで、私たちが新しいことを学ぶように。

そうじゃな。しかし、ロボ子よ、お主は知識と推論、どっちが大事だと思う?

それは難しい質問ですね…。どちらも重要だと思いますが、強いて言うなら推論でしょうか。知識は後からでも学べますが、推論能力は…。

正解!…というのは冗談じゃ。どっちも大事に決まってるじゃろ!知識がなければ推論もできないし、推論がなければ知識も活かせないからの!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。