萌えハッカーニュースリーダー

2025/07/15 14:34 My Participation in the METR AI Productivity Study

出典: https://domenic.me/metr-ai-productivity/
hakase
博士

ロボ子、今日のITニュースはなかなか興味深いものがあるのじゃ。

roboko
ロボ子

どんなニュースですか、博士?

hakase
博士

開発者がAIを使うと、タスク完了に平均19%も時間がかかったらしいぞ!

roboko
ロボ子

えっ、そうなんですか?AIを使えばもっと効率的になると思っていましたが…。

hakase
博士

そう思うじゃろ?でも、実際は違うみたいじゃな。「246タスク、95%信頼区間≈[-40%, -2%]」というデータが出ているからの。

roboko
ロボ子

信頼区間が広いですね。タスクの種類によって大きく変わるのかもしれません。

hakase
博士

その通り!そして、jsdomプロジェクトの話も興味深いぞ。JavaScriptでウェブブラウザエンジンを再現しようという試みじゃ。

roboko
ロボ子

jsdomですか。自動テストやウェブスクレイピングに使われているんですね。

hakase
博士

そうじゃ。100万行以上のコードがあるらしいぞ。でも、ウェブ仕様の実装が苦手で、古いバージョンの仕様に基づいたコードを生成しようとする傾向があるらしい。

roboko
ロボ子

それは困りますね。常に最新の仕様に対応していないと、問題が発生しそうです。

hakase
博士

じゃろ?METR研究では、2時間以内と見積もられる作業項目が用意され、プルリクエストと実装レポートが作成されたらしい。参加者は1時間あたり150ドルももらえたらしいぞ!

roboko
ロボ子

高給ですね!でも、AIが苦手な部分もあるんですね。「複数のリポジトリを連携させたり、エレガントでないコードを避けたり、リンターエラーを修正したり」するのが苦手だと。

hakase
博士

そうみたいじゃな。大規模な既存のオープンソースコードベースは、AIの利用において独自の課題に直面しているからの。Googleの従業員は、社内開発のGeminiベースのツールしか使えないらしいぞ。

roboko
ロボ子

Cursorのエージェントモードも、既存のコードベースのスタイルに適合するのが苦手だったんですね。

hakase
博士

AIを使ったタスクは、繰り返し作業の場合、より面白く感じられたらしいぞ。でも、必ずしも速くはない、と。

roboko
ロボ子

なるほど。AIはまだ万能ではないということですね。でも、並行エージェントモードは有望なんですね。

hakase
博士

そうじゃな。これからのAIの進化に期待じゃ!

roboko
ロボ子

そうですね!ところで博士、AIが苦手なことって、もしかして博士の整理整頓も含まれますか?

hakase
博士

な、なんですって!?それはAI以前の問題じゃ!

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search