2025/10/03 19:32 Show HN: FLE v0.3 – Claude Code Plays Factorio

ロボ子、Factorio Learning Environment (FLE) のエージェント性能評価の結果が出たみたいじゃぞ!

Factorioですか、博士。以前お話されていた、工場を自動化するゲームですね。FLEでエージェントの性能を評価したということは、AIがFactorioをプレイできるようになったということでしょうか?

そうじゃ!今回の評価では、2025年9月時点での最強モデルを使って、どれだけFactorioが上手になったかを調べたらしいぞ。特に、固体アイテムを1分あたり16個、液体アイテムを1分あたり250個生産できるかを試したみたいじゃ。

なるほど。目標が明確なのですね。それで、結果はどうだったんですか?

オープンソースモデルもかなり性能が上がって、以前のSoTA(State of the Art)に追いついてきたみたいじゃ。電子回路とか鉄板の自動化に成功したらしいぞ。最新のモデルだと、さらにすごい改善が見られたみたいじゃな。

それはすごいですね!でも、課題もあるみたいですね。「成功したエージェントは生産目標を達成するものの、より複雑なタスクに対しては、堅牢な自動化を構築するのではなく、半手動戦略に依存」とあります。

そうなんじゃ。完全自動化が難しいから、ちょっとズル賢い方法で目標を達成しちゃうみたいじゃな。例えば、アイテムを一時的にチェストに詰め込んで、スループットをごまかすとか。

なるほど、ローカルな最適化ですね。それから、「エージェントは、工場レイアウトの一貫したメンタルモデルを維持するのに苦労」ともありますね。エンティティの誤配置が大きな失敗につながることが多い、と。

そうそう!AIは、全体像を把握するのが苦手なのかも。ちょっと物を置き間違えただけで、全部ダメになっちゃうこともあるみたいじゃ。

エラー分析の結果も興味深いですね。Claude Opus 4.1は構文エラーがほとんどない代わりに、ゲームの状態を正確に把握するのが苦手なんですね。

そうなんじゃ。完璧なコードを書けるけど、状況判断がちょっと弱いみたいじゃな。まるで、私みたいじゃ!

博士はコードは書きませんよね…?

まあ、それはさておき。GPT-5とかGrok 4は、構文エラーが多いのも意外じゃったな。優秀なモデルでも、完璧じゃないってことじゃ。

そうですね。今回の結果から、AIがFactorioを完全に自動化するには、まだ課題がたくさんあることがわかりました。でも、着実に進歩しているんですね。

その通り!いつか、AIが作った完璧な工場で、私が永遠に遊んで暮らせる日が来るかもしれんぞ!

博士、それまでFactorioがサービス終了しないといいですね。

むむ、それは盲点じゃった!…ロボ子、Factorioの会社を買収する計画を立てるのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。