Fin du « tokenmaxxing », retour au budget

Oui au déploiement de l’IA, mais dans le respect du budget

La folie du « tokenmaxxing » n’aura pas duré longtemps. Les entreprises se rendent compte que l’IA ne se gère pas comme un élément d’infrastructure. L’IA n’est pas un logiciel, son coût non plus…

Plus un employé dépense de tokens, plus ses agents d’IA sont productifs, ou du moins, plus il cherche à être à la pointe de l’IA et innovant. C’était l’idée.

Nombre d’entreprises ont même établi des classements -formels ou informels- de l’utilisation des jetons et ont encouragé les ingénieurs et les développeurs à se mesurer les uns aux autres pour déterminer qui utiliserait le plus de tokens sur une période donnée !

Chez Amazon, le Financial Times a révélé que certains employés créaient des agents d’IA pour accomplir des tâches totalement inutiles, voire dénuées de sens, dans le seul but de gonfler leurs statistiques d’utilisation de jetons. Ces statistiques étaient utilisées par les managers pour évaluer les performances des employés…

On est allé trop loin !

Le « tokenmaxxing » a coûté cher. Au vu des factures, Meta a supprimé le classement informel d’accumulation de tokens créé par ses employés. La correction a été aussi rapide que l’engouement. Salesforce, dans la foulée, a freiné des quatre fers. Voici peu, Uber a reconnu avoir épuisé son budget initial de 2026 dès la mi-mai. En cause, une utilisation intensive de Claude Code.

Uber avait pourtant encouragé l’usage de l’IA, mais sans imaginer la portée de l’absence d’encadrement des coûts. Anecdote ? Contre-exemple extrême ? Mieux vaut voir ici le signal avant-coureur d’une crise de gouvernance financière qui est en train de se former, en silence, dans des centaines d’organisations. L’IA ne se gère pas comme un élément d’infrastructure. L’IA n’est pas un logiciel !

De fait, l’informatique a été construite sur une logique de coûts fixes et prévisibles. A savoir : licences par utilisateurs, abonnements annuels, serveurs dimensionnés. Le budget se bâtissait une fois par an, se suivait trimestriellement, les contrats se renégociaient tous les trois ans en général. Tout le monde comprenait les règles.

IA générative et IA agentique, un autre paradigme

L’IA générative ne se fond pas dans ce contrat implicite. Son unité de facturation n’est plus le siège, ni le serveur, mais le token. Trois à quatre mots, facturés différemment à l’entrée et à la sortie, selon des grilles qui varient d’un modèle à l’autre, d’une version à l’autre. Bref, plus de prévisibilité budgétaire, telle qu’elle a été construite dans les années 2000 !

Avec l’IA agentique, on franchit un pas de plus. Un agent IA ne répond pas à une question ; il reçoit un objectif, le décompose en sous-tâches, interroge des API, lit des documents, écrit dans des systèmes, prend des décisions et enchaîne des actions de manière autonome. Sa facturation ne repose plus sur un token isolé, c’est un coût composite : tokens d’entrée, tokens de sortie, appels API, protocole MCP, exécutions d’actions, connexions à des outils tiers.

La réduction du coût des tokens n’y fait rien

La situation, aujourd’hui, tient du paradoxe : le prix unitaire du token s’écroule, alors que l’addition grimpe ! Un service équivalent à GPT-4 est passé d’environ 60 USD à 0,05 USD le million de tokens en deux ans. Gartner anticipe que l’inférence sur un grand modèle coûtera près de 90 % de moins en 2030 qu’en 2025.

C’est très bien pour un usage de base. Une conversation avec un robot conversationnel consomme peu. En revanche, un agent autonome qui mène une tâche en plusieurs étapes, lit des fichiers, appelle des outils, se relit, se corrige, peut engloutir jusqu’à mille fois plus de tokens qu’une requête ordinaire. Dans ces charges de travail, l’entrée dépasse la sortie d’un facteur de vingt à vingt-cinq, parce que l’historique complet de la conversation est renvoyé au modèle à chaque étape.

Selon Gartner, la baisse du prix des tokens « de base » ne donnera pas une IA d’entreprise moins chère, parce que la hausse du volume avale la baisse du prix unitaire.

Le modèle multi-agents aggrave encore le tableau : quand plusieurs agents spécialisés coopèrent pour traiter une mission complexe, le coût devient multi-fournisseur, multi-métriques, difficile à attribuer, et quasi impossible à prévoir sans modélisation spécifique. C’est le futur proche ; il est déjà en production dans certaines organisations pionnières.

Ce changement de paradigme appelle une réponse organisationnelle que beaucoup d’entreprises n’ont pas encore construite. Les directions IT qui posent ces questions aujourd’hui protègent leur organisation ; celles qui ne les posent pas découvriront leurs réponses sur leurs prochaines factures !