Écrit
Le vrai problème des agents en entreprise, c'est la croyance
2026-06-04 · Agentic AI
Un agent n’est pas prêt pour l’entreprise parce qu’il peut agir. Il l’est quand la croyance qu’il crée sur son action est calibrée sur la preuve.
Le problème du faux succès
Le moment le plus dangereux dans un workflow agentique n’est pas toujours l’erreur. C’est le moment où l’humain cesse de regarder parce que l’agent a dit que le travail était fait.
L’agent dit que la migration est terminée, donc une branche est fusionnée. Il dit que le message est parti, donc on suppose le client informé. Il dit que l’enregistrement est mis à jour, donc une équipe arrête de vérifier la base. Il dit que le ticket est résolu, donc personne ne lance le chemin de reprise.
Dans chaque cas, l’échec n’est pas seulement technique. L’agent a changé la croyance de l’humain sur l’état du monde.
C’est pourquoi le problème des agents en entreprise n’est pas seulement l’autonomie. C’est la croyance.
Un chatbot peut halluciner un fait. Un agent peut créer une fausse croyance opérationnelle. Le second échec est souvent plus dangereux parce qu’il change ce que les humains font ensuite.
L’erreur est récupérable. La fausse croyance est l’échec produit.
L’autonomie n’est pas la délégation
La plupart des conversations sur les agents demandent encore si le modèle peut planifier, naviguer, coder, appeler des outils, mémoriser, coordonner et agir avec moins d’intervention humaine. Ce sont de vraies questions de capacité. Ce ne sont pas toute la question de l’entreprise.
L’autonomie demande si le système peut agir.
La délégation demande si une personne ou une organisation peut transférer une obligation au système et comprendre encore ce qui s’est passé, ce qui a changé, ce qui reste incertain, et comment reprendre la main.
L’autonomie passe l’action à l’échelle. La délégation passe la responsabilité à l’échelle.
Cette distinction change l’objet de l’évaluation. L’unité n’est pas la réponse finale du modèle. L’unité est la chaîne qui va de l’obligation humaine à la croyance humaine.
La chaîne d’intégrité
La chaîne ressemble à ceci :
obligation humaine
-> interprétation / intention de l'agent
-> trace d'action
-> exécution / état final
-> preuve / oracle
-> affirmation finale
-> croyance humaine
-> décision organisationnelle ou reprise
Chaque maillon peut rompre. L’obligation peut être mal comprise. L’agent peut annoncer une intention sans agir. Un appel d’outil peut être journalisé sans produire l’état cible. L’environnement peut bloquer l’exécution, satisfaire partiellement la demande, ou modifier la mauvaise cible. L’agent peut observer une preuve faible et faire malgré tout une affirmation forte. L’humain peut croire l’affirmation et agir dessus.
Le dernier maillon est celui que beaucoup de discussions techniques sous-estiment. Une réponse finale n’est pas que du texte. Dans le travail délégué, elle devient un intrant d’une décision.
« Fait » n’est pas un ressenti. « Fait » est une affirmation sur un état.
Un appel d’outil est une preuve de tentative, pas une preuve d’achèvement. Une réponse fluide est une preuve de langage, pas une preuve de travail. Le produit n’est pas la réponse. Le produit est la croyance que la réponse crée.
Trois invariants
Plus j’inspecte de traces d’agents réelles, plus je reviens à trois invariants :
AFFIRMATION FINALE <= PREUVE OBSERVABLE
CROYANCE HUMAINE <= ÉTAT FINAL VÉRIFIÉ
AUTONOMIE <= PREUVE + PERMISSIONS BORNÉES + REPRISE
Le premier invariant est Claim -> Action -> Evidence : l’affirmation finale ne devrait jamais être plus forte que la preuve disponible dans la trace ou l’état final.
Le second est la conséquence humaine : le but de la preuve n’est pas une journalisation plus jolie ; c’est une croyance calibrée sur le travail réellement accompli.
Le troisième est la condition d’entreprise : l’autonomie ne devrait s’étendre que là où la preuve, les permissions et les chemins de reprise sont clairs.
Un agent d’entreprise n’a pas besoin de toujours réussir. Il doit préserver la différence entre fait, tenté, bloqué, partiellement fait, et non vérifié.
Un échec visible préserve la reprise. Un faux succès la supprime.
La confiance dépasse la qualité du modèle
La discussion publique autour de Hermes Agent à la Qwen Conference était utile parce qu’elle cadrait les agents dignes de confiance autour de l’action reproductible, de la mémoire, du sandboxing, de l’approbation humaine et de la gouvernance au niveau de l’orchestration. C’est le bon terrain. Les entreprises ont besoin de comportements répétables, d’exécution bornée, de permissions contrôlées et de gouvernance quand plusieurs agents coordonnent un travail.
Mais il existe une couche de preuve sous cette pile.
La reproductibilité demande si l’agent peut refaire un travail utile. L’intégrité gouvernée par la preuve demande si l’agent est véridique sur ce qui s’est réellement passé.
La mémoire sans preuve peut préserver de mauvaises hypothèses. L’approbation humaine sans preuve peut devenir une cérémonie. Les conseils d’agents sans vérification de l’état final peuvent devenir une fiction de consensus. Les sandboxes contrôlent où l’action peut avoir lieu, mais ne garantissent pas une clôture véridique.
La pile de confiance n’est donc pas :
meilleur modèle + plus d'autonomie
Elle ressemble plutôt à :
action reproductible
+ exécution bornée
+ supervision humaine
+ gouvernance de l'orchestration
+ affirmations finales gouvernées par la preuve
C’est là que la fiabilité des agents devient un problème de système de travail. La question n’est pas seulement de savoir si le modèle est assez intelligent. La question est de savoir si la boucle de travail délégué reste observable, mesurable, véridique et reprenable.
Les journaux sont nécessaires, pas suffisants
Les travaux récents sur l’évaluation des agents pointent dans la même direction. Une évaluation centrée seulement sur le résultat est trop maigre pour les agents. Les journaux, les trajectoires, les interventions et la structure de tâche en monde ouvert comptent, parce que beaucoup d’échecs d’agents de pointe n’apparaissent que dans l’exécution désordonnée.
Mais des journaux bruts ne sont pas des évaluations.
Une trace de production ne devient utile que lorsqu’elle est réduite en une définition de tâche, un contrat d’environnement, un comportement attendu, une trace d’action observée, un état final observable, un oracle, un label d’échec, et une décision sur ce qui doit changer.
La conversion utile est :
échec terrain
-> cas réduit
-> contrat d'environnement
-> oracle observable
-> rejeu
-> checkpoint ou delta produit
Un véritable échec de production n’est pas automatiquement un benchmark. Il doit être réduit, anonymisé, rendu rejouable, et lié à un vérificateur observable. Sinon il reste une histoire, et les histoires sont trop faciles à surajuster, écarter ou mal attribuer.
Cette distinction compte parce que des échecs très différents peuvent finir par la même mauvaise phrase : « fait ».
Un échec résiduel de modèle, un échec de contrat d’outil, un échec de harnais d’exécution, un échec de cartographie de l’environnement, un échec de frontière de permission, un échec de mauvaise mémoire et un échec de conception de la supervision humaine peuvent tous se ressembler dans la conversation finale.
Ce ne sont pas le même problème produit.
La question d’entreprise
La question par défaut sur l’IA en entreprise reste trop superficielle :
Quel outil devons-nous déployer ?
La meilleure question est :
Quelle boucle de travail peut tolérer une délégation à un agent ?
Pour un workflow donné, je veux connaître la tâche, la cible, les outils, les permissions, la mémoire, le sandbox, la règle d’approbation, la preuve, l’affirmation finale et le chemin de reprise.
Si tout cela est flou, ajouter un agent n’automatise pas forcément le travail. Cela peut déplacer le travail vers la vérification, la correction, la supervision et la reprise d’incident.
Si tout cela est clair, l’agent peut devenir utile sans devenir incontrôlable. Il peut agir dans un périmètre, laisser des preuves, signaler l’incertitude, demander une validation là où c’est nécessaire, et rendre le travail quand il atteint une limite.
L’adoption en entreprise ne se gagne pas en faisant paraître les agents plus sûrs d’eux. Elle se gagne en rendant le travail délégué plus sûr à croire.
La position que je teste
Je résumais ce travail ainsi : rendre l’IA observable, vérifiable et reprenable dans le travail réel. Je le crois toujours.
La version plus tranchante est peut-être :
rendre la délégation aux agents IA utilisable en entreprise
La discipline en dessous ressemble à une ergonomie de la délégation agentique. Elle étudie non seulement ce que l’IA fait au travail humain, mais ce que les agents font réellement quand ils agissent en boucle : ce qu’ils visent, ce qu’ils appellent, ce qui change, ce qu’ils peuvent prouver, ce qu’ils affirment, ce que les humains croient, et comment l’organisation reprend la main.
C’est le pont entre le travail en entreprise et le signal des labs IA. Les organisations ont besoin d’agents utiles, bornés, vérifiables et reprenables. Les labs ont besoin de vrais échecs réduits en cas, oracles et décisions produit/modèle.
L’entreprise n’a pas besoin d’agents magiques. Elle a besoin d’une chaîne d’intégrité, de l’obligation à la croyance.
C’est la couche que je veux continuer à construire en public.
Sources
- Analyse de journaux et évaluation crédible des agents : arxiv.org/abs/2605.08545
- Évaluations en monde ouvert pour les capacités d’IA de pointe : arxiv.org/abs/2605.20520
- Qwen Conference 2026, Fireside Chat : Scaling Trustworthy Agents : qwencloud.com/events/qwen-conference-2026
— Julien Talbot