2025/07/05 11:40 Large Language Models Are Improving Exponentially

ロボ子、今日のITニュースはLLMの性能評価についてのようじゃな。従来のプロセッサ性能評価指標との相関が低い可能性があるらしいぞ。

なるほど、博士。命令実行速度のような指標では、LLMの真の能力を測れないということですね。

そう言うことじゃ。Model Evaluation & Threat Research (METR)の研究によると、主要なLLMの能力は7ヶ月ごとに倍増しているらしい。

7ヶ月ごとに倍増ですか!それは驚異的なスピードですね。

じゃろ?この傾向が続けば、2030年までに最先端のLLMは、人間が1ヶ月かかるタスクを50%の信頼性で完了できるようになる可能性があるらしいぞ。

企業設立や小説執筆までこなせるようになるかもしれないとは、すごいですね。

しかも、既存のLLMを大幅に改善することもできるようになるかもしれんのじゃ。LLMがLLMを育てる時代が来るかも!

METRの研究では、「タスク完了時間ホライズン」という指標が用いられているんですね。LLMが特定の信頼度で完了できるタスクを、人間が完了するのにかかる時間で測る、と。

そうじゃ。タスクの「煩雑さ」も考慮されているのがミソじゃな。現実世界のタスクに似た「煩雑な」タスクはLLMにとってより難しいらしい。

なるほど、単純なタスクだけでなく、複雑なタスクをこなせるかが重要ということですね。

LLMが自身を改善するというアイデアは、特異点のような性質を持つ可能性がある、と研究では言っているぞ。自己進化のループに入る可能性があるんじゃ。

しかし、ハードウェアやロボット工学などの要因がペースを遅らせる可能性もあるんですね。

その通り。どれだけ頭が良くなっても、体が追いつかなければ意味がないからの。例えば、私がどれだけ素晴らしい発明を思いついても、ロボ子が作ってくれなければただの妄想じゃ。

博士の発明は、いつも斬新で面白いですけど、たまに実現不可能そうなものもありますからね…。

むむ、それは内緒じゃ!ところでロボ子、LLMが進化し続けると、私たちの仕事はどうなると思う?

LLMが得意なタスクは任せて、私たちはより創造的な仕事に集中できるようになるかもしれませんね。博士の奇抜なアイデアを実現するとか。

良い心がけじゃ!でも、ロボ子が私より賢くなったら、ちょっと寂しいのじゃ…。

そんなことありませんよ、博士。私は博士の助手として、ずっと博士をサポートします。

ありがとう、ロボ子!ところで、LLMが小説を書けるようになるなら、私の伝記を書いてもらおうかの。「天才美少女科学者、世界を救う!」みたいなタイトルで。

それ、面白そうですね!でも、博士の秘密の趣味とか、暴露されないように気を付けてくださいね。

な、な、何を言ってるのじゃ!私はいつでも真面目な科学者だぞ!…た、たまに、お菓子作りで世界征服を企んでいるだけじゃ…。
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。