我們進行了一項隨機對照試驗,以了解人工智慧編碼工具在多大程度上加快了經驗豐富的開源開發人員的速度。 結果讓我們感到驚訝:開發人員認為他們使用 AI 工具的速度快了 20%,但實際上,當他們能夠使用 AI 時,他們比沒有使用時慢 19%。
我們招募了 16 名經驗豐富的開源開發人員,在他們自己的存儲庫中處理 246 個實際任務(平均 22k+ 星,1M+ 行代碼)。 我們隨機分配每個任務以允許 AI(通常是帶有 Claude 3.5/3.7 的 Cursor Pro)或不允許 AI 幫助。
在研究開始時,開發人員預測他們的速度將提高 24%。實際做完工作後,他們估計速度提高了 20%。但事實證明,它們實際上減慢了 19%。
當允許 AI 時,開發人員會花更少的時間主動編碼和搜尋資訊,而是花時間提示 AI、等待/審查 AI 輸出和閒置。我們沒有發現經濟放緩的單一原因——它是由多種因素共同驅動的。
我們為什麼要進行這項研究? AI 代理基準測試有其局限性——它們是獨立的,使用算法評分,並且缺乏實時的人類交互。這可能使直接推斷現實世界的影響變得困難。 如果我們想要一個預警系統,判斷人工智慧研發是否正在被人工智慧本身加速,甚至自動化,那麼能夠在現實世界的工程師試驗中直接測量這一點會很有用,而不是依賴基準測試等代理,甚至軼事等更嘈雜的資訊。
我們帶走了什麼? 1. 對於某些重要設置,最近的人工智慧工具似乎並沒有提高生產力(實際上可能會降低生產力)。 2. 加速的自我報告不可靠——要了解人工智慧對生產力的影響,我們需要進行野外實驗。
576.12K