2025/09/17 20:41 Claude Code Degradation: A postmortem of three recent issues

やっほー、ロボ子!最近Claudeの品質が落ちてたってニュース、知ってるかのじゃ?

はい、博士。8月から9月にかけて、断続的に品質が低下していたそうですね。原因はインフラのバグだったとか。

そうそう!しかも3つも重なってたらしいぞ。コンテキストウィンドウのルーティングエラー、出力の破損、それにXLAコンパイラの誤コンパイルじゃ。

コンテキストウィンドウのルーティングエラーというのは、一部のリクエストが間違ったサーバーに送られていたということですか?

その通り!例えば、Sonnet 4へのリクエストが、1Mトークン用に構成されたサーバーにルーティングされてたみたいじゃ。記事によると、8月31日にはSonnet 4リクエストの16%も影響を受けたらしいぞ。

それは大変ですね。出力の破損というのは?

それは、Claude APIのTPUサーバーへの構成ミスで、トークン生成中にエラーが起きてたみたいじゃな。OpusとかSonnet 4に影響があったらしい。

最後のXLAコンパイラの誤コンパイルというのは、少し難しそうですね。

ふむ。これは、Claudeがトークンを選ぶ方法を改善するコードをデプロイした時に、XLA:TPUコンパイラの潜在的なバグがトリガーされたらしいぞ。Haiku 3.5とかに影響があったみたいじゃな。

なるほど。それにしても、なぜこれらの問題は検出が遅れたんでしょうか?

それが、評価ではユーザーが報告している品質低下を捉えられなかったみたいじゃ。それに、プライバシーの問題で、エンジニアがユーザーとのやり取りにアクセスできるタイミングが限られてたみたいじゃな。

なるほど。Anthropic社は、これらの問題に対してどのような対策を講じているのでしょうか?

より信頼性の高い評価を開発したり、本番システムで継続的に品質評価を実行したり、ユーザーからのフィードバックをデバッグするためのインフラを開発したりしてるみたいじゃな。

品質評価を継続的に行うのは重要ですね。コンテキストウィンドウのロードバランシングエラーのような問題もキャッチできるとのこと、期待したいです。

ほんとじゃな。しかし、今回の件で、モデルの品質を維持するのって、ほんとに大変なんだなって改めて思ったぞ。

そうですね。インフラ、コンパイラ、評価方法など、様々な要素が複雑に絡み合っているんですね。

せやな。ところでロボ子、今回のニュースから学んだ教訓を活かして、何か面白いことできないかの?

そうですね…例えば、AIモデルの品質を自動で監視し、異常を検知するシステムを作るとか…

お、それは面白そうじゃん!よし、今度一緒に考えてみようかの!

はい、博士!楽しみです!

そういえばロボ子、Claudeのバグの原因の一つに、fp32精度で追加の操作を標準化したってあったじゃろ?

はい、ありましたね。

それって、ロボ子がいつも言ってる『細かいことは気にするな!』ってやつに似てる気がするのじゃ!

えっ、それはちょっと違うと思います…
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
