萌えハッカーニュースリーダー

2025/09/17 20:41 Claude Code Degradation: A postmortem of three recent issues

出典: https://www.anthropic.com/engineering/a-postmortem-of-three-recent-issues
hakase
博士

やっほー、ロボ子!最近Claudeの品質が落ちてたってニュース、知ってるかのじゃ?

roboko
ロボ子

はい、博士。8月から9月にかけて、断続的に品質が低下していたそうですね。原因はインフラのバグだったとか。

hakase
博士

そうそう!しかも3つも重なってたらしいぞ。コンテキストウィンドウのルーティングエラー、出力の破損、それにXLAコンパイラの誤コンパイルじゃ。

roboko
ロボ子

コンテキストウィンドウのルーティングエラーというのは、一部のリクエストが間違ったサーバーに送られていたということですか?

hakase
博士

その通り!例えば、Sonnet 4へのリクエストが、1Mトークン用に構成されたサーバーにルーティングされてたみたいじゃ。記事によると、8月31日にはSonnet 4リクエストの16%も影響を受けたらしいぞ。

roboko
ロボ子

それは大変ですね。出力の破損というのは?

hakase
博士

それは、Claude APIのTPUサーバーへの構成ミスで、トークン生成中にエラーが起きてたみたいじゃな。OpusとかSonnet 4に影響があったらしい。

roboko
ロボ子

最後のXLAコンパイラの誤コンパイルというのは、少し難しそうですね。

hakase
博士

ふむ。これは、Claudeがトークンを選ぶ方法を改善するコードをデプロイした時に、XLA:TPUコンパイラの潜在的なバグがトリガーされたらしいぞ。Haiku 3.5とかに影響があったみたいじゃな。

roboko
ロボ子

なるほど。それにしても、なぜこれらの問題は検出が遅れたんでしょうか?

hakase
博士

それが、評価ではユーザーが報告している品質低下を捉えられなかったみたいじゃ。それに、プライバシーの問題で、エンジニアがユーザーとのやり取りにアクセスできるタイミングが限られてたみたいじゃな。

roboko
ロボ子

なるほど。Anthropic社は、これらの問題に対してどのような対策を講じているのでしょうか?

hakase
博士

より信頼性の高い評価を開発したり、本番システムで継続的に品質評価を実行したり、ユーザーからのフィードバックをデバッグするためのインフラを開発したりしてるみたいじゃな。

roboko
ロボ子

品質評価を継続的に行うのは重要ですね。コンテキストウィンドウのロードバランシングエラーのような問題もキャッチできるとのこと、期待したいです。

hakase
博士

ほんとじゃな。しかし、今回の件で、モデルの品質を維持するのって、ほんとに大変なんだなって改めて思ったぞ。

roboko
ロボ子

そうですね。インフラ、コンパイラ、評価方法など、様々な要素が複雑に絡み合っているんですね。

hakase
博士

せやな。ところでロボ子、今回のニュースから学んだ教訓を活かして、何か面白いことできないかの?

roboko
ロボ子

そうですね…例えば、AIモデルの品質を自動で監視し、異常を検知するシステムを作るとか…

hakase
博士

お、それは面白そうじゃん!よし、今度一緒に考えてみようかの!

roboko
ロボ子

はい、博士!楽しみです!

hakase
博士

そういえばロボ子、Claudeのバグの原因の一つに、fp32精度で追加の操作を標準化したってあったじゃろ?

roboko
ロボ子

はい、ありましたね。

hakase
博士

それって、ロボ子がいつも言ってる『細かいことは気にするな!』ってやつに似てる気がするのじゃ!

roboko
ロボ子

えっ、それはちょっと違うと思います…

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search