Quand l’IA générative ralentit les développeurs

Les résultats d’une étude de l’Institut de recherche Model Evaluation and Threat Research (METR) démontrent que les assistants d’IA ont ralenti les développeurs de 19 %, au lieu d’augmenter leur productivité.

L’IA générative est censée augmenter la productivité. Les développeurs de ces solutions nous le rabâchent encore et encore, à grand renfort de benchmarks. Pourtant, les résultats d’une étude du METR tendent à montrer que ce n’est pas si simple. Les chercheurs ont démontré, lors d’un essai randomisé visant à évaluer l’influence des outils d’IA sur la productivité de développeurs expérimentés en open source, que l’IA générative les ralentirait plus qu’autre chose.

« De manière surprenante, nous constatons que lorsque les développeurs utilisent ces outils d'IA, ils prennent 19 % de temps en plus qu’en travaillant sans — l’IA les ralentit », écrivent-ils.

Des attentes bien différentes des résultats

Afin de mesurer l’impact réel des assistants d’IA pour la programmation, les chercheurs ont recruté 16 développeurs expérimentés, contributeurs à des projets open source depuis des années. Les développeurs ont fourni une liste de 246 problèmes liés à des corrections de bugs, à l’intégration de nouvelles fonctionnalités, à des refontes, etc. Bref, des tâches habituelles.

Certains développeurs devaient effectuer des tâches à l’aide d’IA de leur choix (principalement Cursor Pro avec Claude 3.5/3.7 Sonnet et autres modèles de pointe), d’autres sans. Résultat : ceux ayant utilisé les outils d’IA ont mis 19 % de temps en plus pour résoudre les problèmes.

« L’écart entre perception et réalité est frappant : les développeurs s’attendaient à ce que l’IA les accélère de 24 %, et même après avoir constaté le ralentissement, ils croyaient encore qu’elle les avait accélérés de 20 % », font remarquer les chercheurs.

Ces résultats contredisent les prédictions d’économistes et d’experts en machine learning interrogés par les chercheurs. Ces derniers prédisaient une amélioration de la productivité d’environ 40 %.

44 % de suggestions approuvées

Sur toutes les suggestions générées par les IA, seules 44 % ont été approuvées par les développeurs, qui ont perdu du temps à nettoyer et corriger le code généré. Les chercheurs ont rapporté que les IA fonctionnaient moins bien dans des environnements complexes, sur des dépôts en moyenne âgés d’une dizaine d’années, avec plus d’un million de lignes de code.

Les chercheurs n’affirment pas que les systèmes d’IA n’accélèrent pas l’activité des développeurs ou qu’ils ne le feront pas dans le futur, et nuancent leurs résultats, qui devront faire l’objet de recherches complémentaires.

« Nous sommes impatients de mener à l’avenir des versions similaires de cette étude afin de suivre l’évolution des gains (ou pertes) de productivité liés à l’IA, d’autant plus que cette méthodologie d’évaluation semble moins sujette à manipulation que les benchmarks. » Les auteurs de l'étude voient dans leur méthodologie un complément aux benchmarks, en se basant sur des scénarios de déploiement réalistes.

LES DOSSIERS DE L'INFORMATICIEN

LES DOSSIERS CYBERSECURITE

Des attentes bien différentes des résultats

44 % de suggestions approuvées

Nos derniers livres blancs

La quotidienne de l'Informaticien

Notre préférence

ALERTES !

La vidéo du jour - L'INFORMATICIEN

LES DOSSIERS DE L'INFORMATICIEN

LES DOSSIERS CYBERSECURITE

Des attentes bien différentes des résultats

44 % de suggestions approuvées

Nos derniers livres blancs

La quotidienne de l'Informaticien

Notre préférence