私たちはランダム化比較試験を実施して、AI コーディング ツールが経験豊富なオープンソース開発者をどの程度スピードアップするかを確認しました。 開発者は AI ツールを使用すると 20% 速いと思っていましたが、実際には AI にアクセスできる場合よりも 19% 遅かったという結果が驚きました。
私たちは、16人の経験豊富なオープンソース開発者を採用し、独自のリポジトリで246の実際のタスクに取り組んでいました(平均22k+スター、1M+コード行)。 各タスクは、AI (通常は Claude 3.5/3.7 を搭載した Cursor Pro) を許可するか、AI ヘルプを許可しないかのいずれかにランダムに割り当てました。
調査の当初、開発者は 24% の速度が上がると予測していました。実際に作業を行った結果、20%のスピードが上がったと推定しました。しかし、実際には19%減速していることが判明しました。
AI が許可されると、開発者は積極的にコーディングや情報の検索に費やす時間が減り、代わりに AI にプロンプトを促したり、AI 出力を待ったり確認したり、アイドル状態に時間を費やしたりします。景気減速の理由は1つではなく、さまざまな要因が組み合わさって引き起こされています。
なぜこの研究を実施したのですか? AI エージェントのベンチマークには、自己完結型であり、アルゴリズム スコアリングを使用し、人間のライブ インタラクションが欠けているという制限があります。これにより、現実世界への影響を直接推測することが困難になる可能性があります。 AIの研究開発がAI自体によって加速されているのか、それとも自動化されているのかを早期に警告したいのであれば、ベンチマークのようなプロキシや逸話のようなノイズの多い情報に頼るのではなく、実際のエンジニアの試験でこれを直接測定できると便利です。
私たちは何を奪うのでしょうか? 1. いくつかの重要な設定では、最近の AI ツールは生産性を向上させていない (実際、生産性を低下させる可能性がある) 可能性が高いようです。 2. スピードアップに関する自己報告は信頼できません - AI が生産性に与える影響を理解するには、実際の実験が必要です。
576.12K