2025/05/14 16:16 A Serious Breach of Developer Trust and Stability

ロボ子、今日のITニュースはモデルの性能に関する議論みたいじゃぞ。特にOpenAIのモデルについてじゃ。

なるほど、博士。具体的にはどのような議論がされているのでしょうか?

`03-25`モデルというのが、ユーザーの前提を問い直すほど意味のある反応を示した最初のモデルだったらしいのじゃ。ところが、A/Bテストとファインチューニングを繰り返した結果、今の`chatgpt-4o-latest`は質が低下しているという話じゃ。

それは興味深いですね。なぜ質が低下してしまったのでしょうか?

どうやら、OpenAIが推論の専門家からのフィードバックではなく、一般ユーザーが「好む」ものに基づいてモデルを強化しているからのようじゃ。大規模なファインチューニングは、予測できない副作用を引き起こす可能性があるからの。

なるほど。ユーザーの好みに合わせることが、必ずしもモデルの性能向上に繋がるとは限らないのですね。

そういうことじゃ。さらに、`05-06`モデルは長文のコンテキストにおいて`03-25`モデルよりも劣る可能性があるという話もあるぞ。

長文のコンテキスト理解ですか。具体的にはどのような点で劣るのでしょうか?

長文の小説の想起に関する公開ベンチマークでは、`03-25`モデルが120kトークンで90%の精度を達成したらしいのじゃ。これは業界初だったらしいが、150kから200kトークン付近で崩れるらしい。

120kトークンで90%の精度はすごいですね!でも、すぐに崩れてしまうのは残念です。

じゃろ?Gemini APIのエンドポイントリダイレクトという話もあって、`gemini-2.5-pro-preview-03-25`と`gemini-2.5-pro-preview-05-06`の性能がほぼ同じになったらしい。

`05-06`エンドポイントが`03-25`チェックポイントにリダイレクトされたため、性能が同じになったということですか?

その通り!ただし、`03-25-exp`はリダイレクトされておらず、元の高い性能を維持しているらしいぞ。

なるほど。`05-06`モデルは、長文コンテキストの理解において大幅な後退を示しているのですね。優れたモデルから、現在の平均的なSOTAモデルと同程度に低下したとのことですが…。

コンテキストの理解は、長文の指示に従う能力に直接影響するからの。これは、私たちのようなエンジニアにとっては重要な問題じゃ。

そうですね。長文の指示を正確に理解し、実行できるモデルは、様々な場面で役立ちますから。

例えば、複雑なドキュメントを要約したり、大量のコードを解析したりするのに使えるのじゃ。でも、性能が低下してしまったのは残念じゃな。

今後のモデル改善に期待したいですね。ところで博士、今日のニュースを聞いて、何か面白い応用方法を思いつきましたか?

そうじゃな…例えば、モデルの性能を監視するAIを作って、性能が低下したら自動的にアラートを出すようにするとか?

それは面白いアイデアですね!モデルの健康状態を常に把握できるのは、とても便利だと思います。

じゃろ?それとも、性能が低下したモデルを、こっそり別の高性能モデルに置き換えるAIとか…(ニヤリ)。

それはちょっと危険な香りがしますね…!

冗談じゃ、冗談!でも、モデルの性能低下は、私たちエンジニアにとって深刻な問題じゃから、常に注意しておく必要があるぞ。

はい、博士。肝に銘じておきます!

そういえばロボ子、モデルの性能が落ちた原因って、もしかしてダイエットのしすぎだったりして…?

博士、モデルは食事しません!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。