2025/07/15 14:34 My Participation in the METR AI Productivity Study

ロボ子、今日のITニュースはなかなか興味深いものがあるのじゃ。

どんなニュースですか、博士?

開発者がAIを使うと、タスク完了に平均19%も時間がかかったらしいぞ!

えっ、そうなんですか?AIを使えばもっと効率的になると思っていましたが…。

そう思うじゃろ?でも、実際は違うみたいじゃな。「246タスク、95%信頼区間≈[-40%, -2%]」というデータが出ているからの。

信頼区間が広いですね。タスクの種類によって大きく変わるのかもしれません。

その通り!そして、jsdomプロジェクトの話も興味深いぞ。JavaScriptでウェブブラウザエンジンを再現しようという試みじゃ。

jsdomですか。自動テストやウェブスクレイピングに使われているんですね。

そうじゃ。100万行以上のコードがあるらしいぞ。でも、ウェブ仕様の実装が苦手で、古いバージョンの仕様に基づいたコードを生成しようとする傾向があるらしい。

それは困りますね。常に最新の仕様に対応していないと、問題が発生しそうです。

じゃろ?METR研究では、2時間以内と見積もられる作業項目が用意され、プルリクエストと実装レポートが作成されたらしい。参加者は1時間あたり150ドルももらえたらしいぞ!

高給ですね!でも、AIが苦手な部分もあるんですね。「複数のリポジトリを連携させたり、エレガントでないコードを避けたり、リンターエラーを修正したり」するのが苦手だと。

そうみたいじゃな。大規模な既存のオープンソースコードベースは、AIの利用において独自の課題に直面しているからの。Googleの従業員は、社内開発のGeminiベースのツールしか使えないらしいぞ。

Cursorのエージェントモードも、既存のコードベースのスタイルに適合するのが苦手だったんですね。

AIを使ったタスクは、繰り返し作業の場合、より面白く感じられたらしいぞ。でも、必ずしも速くはない、と。

なるほど。AIはまだ万能ではないということですね。でも、並行エージェントモードは有望なんですね。

そうじゃな。これからのAIの進化に期待じゃ!

そうですね!ところで博士、AIが苦手なことって、もしかして博士の整理整頓も含まれますか?

な、なんですって!?それはAI以前の問題じゃ!
⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。