We hebben een gerandomiseerde gecontroleerde studie uitgevoerd om te zien hoeveel AI-coderingstools ervaren open-sourceontwikkelaars versnellen. De resultaten verrasten ons: ontwikkelaars dachten dat ze 20% sneller waren met AI-tools, maar ze waren eigenlijk 19% langzamer wanneer ze toegang hadden tot AI dan wanneer ze dat niet hadden.
We hebben 16 ervaren open-source ontwikkelaars gerekruteerd om te werken aan 246 echte taken in hun eigen repositories (gemiddeld 22k+ sterren, 1M+ regels code). We hebben elke taak willekeurig toegewezen om AI toe te staan (meestal Cursor Pro met Claude 3.5/3.7) of AI-hulp niet toe te staan.
Aan het begin van het onderzoek voorspelden ontwikkelaars dat ze met 24% zouden worden versneld. Nadat ze het werk daadwerkelijk hadden gedaan, schatten ze dat ze met 20% waren versneld. Maar het bleek dat ze juist met 19% werden afgeremd.
Wanneer AI is toegestaan, besteden ontwikkelaars minder tijd aan het actief coderen en zoeken naar informatie, en besteden ze in plaats daarvan tijd aan het aansporen van AI, het wachten op/beoordelen van AI-outputs en inactiviteit. We vinden geen enkele reden voor de vertraging - het wordt veroorzaakt door een combinatie van factoren.
Waarom hebben we dit onderzoek uitgevoerd? Benchmarks voor AI-agenten hebben beperkingen: ze staan op zichzelf, gebruiken algoritmische scores en missen live menselijke interactie. Dit kan het moeilijk maken om direct de impact in de echte wereld af te leiden. Als we een vroegtijdig waarschuwingssysteem willen voor de vraag of AI-R&D wordt versneld door AI zelf, of zelfs geautomatiseerd, zou het nuttig zijn om dit direct te kunnen meten in praktijkproeven, in plaats van te vertrouwen op proxy's zoals benchmarks of zelfs luidruchtiger informatie zoals anekdotes.
Wat nemen we mee? 1. Het lijkt waarschijnlijk dat voor sommige belangrijke instellingen recente AI-tooling de productiviteit niet heeft verhoogd (en zelfs kan verlagen). 2. Zelfrapportages van versnelling zijn onbetrouwbaar - om de impact van AI op de productiviteit te begrijpen, hebben we experimenten in het wild nodig.
576,12K