Onverwachte tegenvallende prestaties. Tijdverlies door het opruimen van fouten van robots

Wat als AI zijn beloften op het gebied van productiviteitswinst nog niet heeft waargemaakt? Een experimenteel onderzoek door het onafhankelijke laboratorium METR zet onze zekerheden op losse schroeven.

Lente 2025 bij METR (Model Evaluation and Transparency Research): getest in reële omstandigheden op open source-referenties die ze goed kennen, waren ervaren ontwikkelaars gemiddeld 19 % trager wanneer ze generatieve AI-tools gebruikten dan wanneer ze dat niet deden. Een onverwachte tegenprestatie, die des te opvallender was omdat de deelnemers zelf ten onrechte dachten dat AI hen had geholpen om sneller te werken.

Traditionele benchmarks, zoals SWE-Bench Verified of RE-Bench, werden gebruikt om de snelle vooruitgang van AI-modellen te meten. Deze beoordelingen zijn echter vaak uit hun context gehaald: ze richten zich op geïsoleerde, gestandaardiseerde taken die automatisch worden beoordeeld en vaak ver afstaan van de praktische eisen en impliciete beperkingen van het dagelijkse softwarewerk.

De METR-methode

Om betrouwbare conclusies te kunnen trekken over de werkelijke impact van generatieve AI op softwareontwikkeling, heeft METR 16 ontwikkelaars gerekruteerd met tientallen tot honderden uren ervaring met taalmodellen en die gemiddeld vijf jaar hebben bijgedragen aan volwassen open source-projecten (22.000 GitHub-sterren, meer dan een miljoen regels code).

De methodologie van hun gerandomiseerde gecontroleerde proef (RCT) is gebaseerd op een eenvoudig principe: het gebruik van AI (voornamelijk Cursor Pro met Claude 3.5/3.7) willekeurig toestaan of verbieden voor een reeks van 246 technische problemen die deel uitmaken van hun dagelijkse werk (bugs, refactoringen, functionaliteitsverbeteringen), en vervolgens de oplostijd meten.

De werktijden werden door de deelnemers zelf opgegeven en aangevuld met schermopnames. De resultaten werden kwalitatief beoordeeld aan de hand van de ingediende Pull Requests.

Een verschil tussen perceptie en realiteit

Ondanks hun ervaring verwachtten de ontwikkelaars een versnelling van 24 % dankzij AI. Aan het einde van het experiment was deze schatting iets gedaald, maar bleef optimistisch: een waargenomen tijdwinst van 20 %.

In werkelijkheid kostten de taken die met behulp van AI werden uitgevoerd gemiddeld 19% meer tijd dan de taken die zonder AI werden uitgevoerd. Dit verschil was niet alleen in strijd met de verwachtingen van de deelnemers, maar ook met de voorspellingen van externe experts op het gebied van economie (-39%) en machine learning (-38%). 

Taken die ongeveer zes uur of minder zouden moeten duren, vertoonden de grootste vertraging: AI-ondersteund werk vertraagde de uitvoeringstijd aanzienlijk. Dat is ver verwijderd van de beloften!

Hoe zit het met de beloften als er meer tijd wordt besteed aan het opschonen van fouten?

Wat is er gebeurd? Ten eerste hebben ontwikkelaars tijd verloren met het raadplegen van GenAI. Volgens METR wordt vaak voorbijgegaan aan de moeilijkheid van het schrijven van goede programmeeropdrachten. Ontwikkelaars hebben ook meer tijd dan verwacht besteed aan het controleren van de gegenereerde code en het corrigeren van fouten, waaronder – verrassing! – potentiële beveiligingslekken.

Dit is niet de eerste studie die tot deze conclusies komt. Uit de DORA-studie (DevOps Research and Assessment) van Google uit 2024 bleek dat GenAI-codingtools weliswaar de code-review versnellen, maar dat de resultaten over het algemeen te matig zijn om in productie te worden genomen. Teams die deze technologie gebruiken, melden ook meer fouten. Met andere woorden, programmeurs verliezen tijd met het opruimen van fouten van robots!