私はこの研究に参加した16人の開発者のうちの1人でした。開発速度低下の原因と緩和策について、私の意見を述べたいと思いました。 「なぜあなたの言うことを聞くのですか?」というフックとして、割り当てられた課題で AI のスピードアップが -38% になったと言います。透明性はコミュニティに役立つと思います。
METR
METR2025年7月11日
私たちはランダム化比較試験を実施して、AI コーディング ツールが経験豊富なオープンソース開発者をどの程度スピードアップするかを確認しました。 開発者は AI ツールを使用すると 20% 速いと思っていましたが、実際には AI にアクセスできる場合よりも 19% 遅かったという結果が驚きました。
まず、AIのスピードアップは、開発者としての能力との相関が非常に弱いと思います。この研究の開発者は皆非常に優れています。それは、LLMの能力と人間のワークフローの両方において、障害モードに陥ることと関係があると思います。私はたくさんの素晴らしい事前トレーニング開発者と仕事をしていますが、人々は同じ問題の多くに直面していると思います。 LLM はツールであると言いたいのですが、むしろ特効薬のように扱います。 文字通り、すべての開発者は、厄介な問題を最終的にデバッグすることに満足していることを証明できます。LLM は、問題を一発で解決できる大きなドーパミン ショートカット ボタンです。1%の確率で全てが直るボタンを押し続けますか?少なくとも私にとっては、過酷な代替案よりもはるかに楽しいです。
LLMの過剰使用のケースが発生する可能性があるのは、作業中の解決までの時間よりも、知覚される楽しみのために最適化するのが簡単だからだと思います。 1時間デバッグする代わりに、カーソルでタブを5時間押します。
第三に、LLM の生成中にダウンタイムで気が散りがちです。ソーシャルメディアのアテンションエコノミーは残酷で、人々は30秒の世代を「待つ」間、30分かけてスクロールしていると思います。 これについて私が言えるのは、私たち自身の落とし穴を知り、この LLM 世代の時間を生産的に埋めるように努めるべきだということです。 - タスクに高い集中力が必要な場合は、サブタスクに取り組むか、フォローアップの質問について考えるかのいずれかに時間を費やします。モデルがあなたの質問をワンショットで答えたとしても、他に何が理解できないのでしょうか? - タスクに集中力が低い必要がある場合は、その間に別の小さなタスク(メール/Slackに返信する、別の段落を読んだり編集したりするなど)を行います。 いつものように、小さなデジタル衛生対策(Webサイトブロッカー、dnd上の電話など)がこれに役立ちます。グランピーで申し訳ありませんが、それは私にとってうまくいきます:)
いくつかの最後の声明: - METR は協力するのに最適な組織であり、強力な科学者です。私はこの研究に参加し、その結果を読むことが大好きです。 - 私は説教しようとしているLLMの第一人者ではありません。これは、私が個人的な日記を公開し、他の人が私の内省から恩恵を受けることができることを期待していると考えてください。
1.96M