Contre-performance inattendue. Pertes de temps à nettoyer les erreurs des robots

Et si l’IA n’avait pas encore tenu ses promesses de gains de productivité ? Une étude expérimentale menée par le laboratoire indépendant METR remet en question nos certitudes.

Printemps 2025 au METR (Model Evaluation and Transparency Research) : testés en conditions réelles sur des référentiels open source qu’ils connaissent bien, les développeurs expérimentés étaient en moyenne 19 % plus lents lorsqu’ils utilisaient des outils d’IA générative que lorsqu’ils n’en utilisaient pas. Une contre-performance inattendue, d’autant plus frappante que les participants eux-mêmes croyaient à tort que l’IA les avait aidés à travailler plus vite.

Des benchmarks traditionnels, tels que SWE-Bench Verified ou RE-Bench, ont été utilisés pour mesurer la progression rapide des modèles d’IA. Cependant, ces évaluations sont souvent décontextualisées : elles se concentrent sur des tâches isolées et standardisées, évaluées automatiquement, souvent éloignées des exigences pratiques et des contraintes implicites du travail logiciel quotidien.

La méthode METR

Afin de tirer des conclusions fiables sur l’impact réel de l’IA générative sur le développement logiciel, METR a recruté 16 développeurs possédant plusieurs dizaines, voire centaines d’heures d’expérience avec les modèles de langage et contribuant en moyenne pendant cinq ans à des projets open source matures (22 000 étoiles GitHub, plus d’un million de lignes de code).

La méthodologie de son essai contrôlé randomisé (ECR) repose sur un principe simple : autoriser ou interdire l’utilisation de l’IA (principalement Cursor Pro avec Claude 3.5/3.7), de manière aléatoire, sur un ensemble de 246 problèmes techniques faisant partie de leur quotidien professionnel (bugs, refactorisations, améliorations de fonctionnalités), puis mesurer le temps de résolution.

Les temps de travail ont été auto-déclarés et complétés par des enregistrements d’écran. Les livrables ont été évalués qualitativement grâce aux Pull Requests soumises.

Un décalage entre perception et réalité

Malgré leur expérience, les développeurs anticipaient une accélération de 24 % grâce à l’IA. À la fin de l’expérience, cette estimation a légèrement diminué, mais reste optimiste : un gain de temps perçu de 20 %.

En réalité, les tâches réalisées avec l’aide de l’IA ont pris en moyenne 19 % de temps supplémentaire que celles réalisées sans; un écart non seulement contraire aux attentes des participants, mais aussi aux prédictions d’experts externes issus des domaines de l’économie (-39 %) et de l’apprentissage automatique (-38 %).

Les tâches censées prendre environ six heures ou moins ont montré le ralentissement le plus prononcé, le travail assisté par l’IA ralentissant considérablement les temps d’exécution. On est loin des promesses !

Quid des promesses si l’on passe plus de temps à nettoyer les erreurs ?

Que s’est-il passé ? D’abord, les développeurs ont perdu du temps à solliciter la GenAI. Souvent, analyse METR, on néglige la difficulté d’écrire de bonnes invites de programmation. Les développeurs ont également passé plus de temps que prévu à examiner le code généré et à corriger les erreurs, y compris -surprise !- de potentielles failles de sécurité.

Ce n’est pas la première étude à parvenir à ces conclusions. L’étude DORA (DevOps Resaerch and Assessment) de Google de 2024 a révélé que si les outils de codage de GenAI accélèrent la revue de code, leurs résultats sont généralement trop médiocres pour être déployés en production. Les équipes utilisant cette technologie signalent également davantage d’erreurs. En d’autres termes, les programmeurs perdent du temps à nettoyer les erreurs des robots !