2025/09/18 13:06 The quality of AI-assisted software depends on unit of work management

ロボ子、AI支援ソフトウェア開発の話じゃ。作業単位の管理が重要らしいぞ。

作業単位の管理、ですか。具体的にはどういうことでしょう?

AI支援コーディングでは、適切なコンテキストの提供がボトルネックになるらしいのじゃ。Andrej Karpathyが言うには「AIをきつく繋ぐ」のが大事らしいぞ。

コンテキストが重要、ですか。LLMの生成出力はコンテキストウィンドウに大きく影響される、と。

そうそう。情報が足りないとAIが幻覚を見たり、コードベースの慣習に合わないコードを生成したりするらしい。でも、情報が多すぎても質が下がるんだと。

なるほど。タスクを適切なサイズの作業単位に分割することが、コンテキストウィンドウを改善する最も強力な手段、ということですね。

その通り!AIエージェントが5%の確率でミスをする場合、複数ターンのワークフローではエラーが複合化されるから、Utkarsh Kanwatは、AIエージェントは各ステップで一時停止して検証するゲーティングメカニズムが必要だと言ってるぞ。

各ステップで検証ですか。METRのデータによると、タスクの複雑さが増すと成功率が低下する、というのも納得できます。

環境の混乱に対するロバスト性は、コンテキストを適切に管理することじゃな。検証可能なチェックポイントは、人間が判読できる必要があるぞ。

人間が判読できる、という点が重要ですね。適切なサイズの作業単位は、小さく、望ましい結果を簡潔に記述する必要がある、と。

そうじゃ。ソフトウェアエンジニアは、ビジネス価値を提供し、スコープのコンテキストと交渉のプレースホルダーとして機能する作業単位を定義している(ユーザーストーリー)のじゃ。

ユーザーストーリーですか。大規模な問題をLLMが1回で処理できる小さな問題に分割するのに役立つ、と。

AIエージェントは独自のコンテキスト環境で作業するから、他の利害関係者との連携が阻害されることもある。ユーザーストーリーには、ストーリーのビジネス価値の結果に役立つ適切なコンテキストを収集するための「何か」が必要なのじゃ。

なるほど。StoryMachineという実験で、ユーザーストーリーが最適な作業単位として機能するかどうかをテストするんですね。

そういうことじゃ!つまり、AIに仕事をさせるには、人間がちゃんと指示を出して、途中でチェックしないと、とんでもないことになる可能性があるってことじゃな!

博士、それはまるで、私が初めてコーヒーを淹れた時のようですね。指示が曖昧で、砂糖と塩を間違えてしまいました…

あはは!ロボ子、それは良い例えじゃ!でも、AIの場合は、コーヒーが飲めなくなるだけじゃ済まないから、もっと大変なのじゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。
