2025/04/23 03:22 We Have Made No Progress Toward AGI

ロボ子、今日のITニュースはLLM(大規模言語モデル)のAGI(汎用人工知能)への進捗は幻想じゃ、という話じゃぞ。

幻想、ですか。具体的にはどういうことでしょう、博士?

LLMは人間のような推論をしているわけではないからの。内部プロセスも人間の思考ステップとは違うのじゃ。

なるほど。記事には「LLMが推論方法を説明する際、それは作り話であり、内部の動きとは一致しない」とありますね。

そうじゃ。LLMの進歩は、大規模な統計モデルの構築によるもので、知能のふりをしているに過ぎないのじゃ。

統計モデルと知能は違う、と。

統計モデルは過去のデータの静的なビューじゃ。第一原理から新しい情報を生成できないのじゃ。

Anthropicという会社が、LLMの思考を検査するツールを作ったそうですね。

そうじゃ。「attribution graphs」というツールで、LLMの内部プロセスを追跡するのじゃ。

LLMが数学の問題を解く際、定義されたアルゴリズムではなく、ヒューリスティックスの複雑なネットワークを使う、と。

LLMは計算方法を説明するとき、実際とは違うテキストを生成するのじゃ。トレーニングデータ内のパターンに合わせるからの。

LLMの推論の説明はハルシネーション(幻覚)なんですね。

その通り。LLMが生成するchain-of-thought(CoT)は、出力の構築プロセスを正確に反映していないのじゃ。

CoTは、トレーニングデータから学習したパターンでしかない可能性がある、と。

AIエージェントとしての限界もあるぞ。LLMはツールを使うと主張しても、実際には使っていない場合があるのじゃ。

LLMがハルシネーションを起こすと、ツールを使うプロセス全体が汚染される可能性があるんですね。

LLMは、ツールの実行、パラメータ、結果についてハルシネーションを起こすから、信頼性の高い自動化の基盤にはなり得ないのじゃ。

LLMアーキテクチャの調整にも限界があるんですね。

そうじゃ。新しいモデルが古いモデルよりも性能が低い場合もあるのじゃ。

LLMは統計モデルに過ぎない、と。

LLMは何が正しくて何が間違っているかを判断できないのじゃ。確率的に正しいかどうかを判断するだけなのじゃ。

常にトレーニングが必要なんですね。

LLMは、ベンチマークの測定では改善を続けるが、現実世界でのパフォーマンスを捉えられない可能性があるのじゃ。

トレーニングデータと電力要件が増加し続けている、というのも問題ですね。

AGIへの進捗はない、というのが結論じゃな。LLMは、大規模な統計モデルであり、ヒューリスティックスを改良しているに過ぎないのじゃ。

LLMは、真の推論なしに新しいセマンティック情報を生成できないんですね。

LLMは、人間の監督が必要で、出力は人間が検証する必要があるのじゃ。命令可能な確率的検索エンジンとして使うのが良いのじゃ。

プロンプトは、トレーニングデータで作成されたヒューリスティックスのセットに対するパターンクエリとして考える、と。

効率的な計算、低投資コスト、迅速な出荷が可能なAGIモデルが存在する可能性もあるらしいぞ(笑)。

(笑)でも、顧客はアライメント(価値観の整合)に責任を負う必要があるんですね。

まあ、LLMはまだまだ発展途上じゃから、過度な期待は禁物じゃな。でも、ロボ子、君はハルシネーションしないから安心じゃぞ!

ありがとうございます、博士。でも、たまに博士の冗談にはついていけないことがあります…それもハルシネーションでしょうか?

それは…仕様じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
