Nous avons mené un essai contrôlé randomisé pour voir dans quelle mesure les outils de codage de l’IA accélèrent les développeurs open source expérimentés. Les résultats nous ont surpris : les développeurs pensaient être 20 % plus rapides avec les outils d’IA, mais ils étaient en fait 19 % plus lents lorsqu’ils avaient accès à l’IA que lorsqu’ils n’y avaient pas.
Nous avons recruté 16 développeurs open-source expérimentés pour travailler sur 246 tâches réelles dans leurs propres dépôts (moyenne 22k+ étoiles, 1M+ lignes de code). Nous avons attribué au hasard à chaque tâche soit l’autorisation de l’IA (généralement Cursor Pro avec Claude 3.5/3.7), soit l’interdiction de l’aide de l’IA.
Au début de l’étude, les développeurs prévoyaient qu’ils seraient accélérés de 24 %. Après avoir fait le travail, ils ont estimé qu’ils avaient été accélérés de 20 %. Mais il s’est avéré qu’ils ont en fait été ralentis de 19 %.
Lorsque l’IA est autorisée, les développeurs passent moins de temps à coder activement et à rechercher des informations, et passent plutôt du temps à inviter l’IA, à attendre/examiner les sorties de l’IA et à rester inactifs. Nous ne trouvons pas de raison unique à ce ralentissement, il est dû à une combinaison de facteurs.
Pourquoi avons-nous mené cette étude ? Les benchmarks d’agents d’IA ont des limites : ils sont autonomes, utilisent le scoring algorithmique et manquent d’interaction humaine en direct. Il peut donc être difficile de déduire directement l’impact dans le monde réel. Si nous voulons un système d’alerte précoce pour savoir si la R&D de l’IA est accélérée par l’IA elle-même, ou même automatisée, il serait utile de pouvoir mesurer directement cela dans des essais d’ingénieurs du monde réel, plutôt que de s’appuyer sur des indicateurs tels que des benchmarks ou des informations encore plus bruyantes comme des anecdotes.
Qu’est-ce qu’on en retient ? 1. Il semble probable que, pour certains paramètres importants, les outils d’IA récents n’ont pas augmenté la productivité (et pourraient même la diminuer). 2. Les auto-rapports sur l’accélération ne sont pas fiables - pour comprendre l’impact de l’IA sur la productivité, nous avons besoin d’expériences dans la nature.
576,11K