Labs IA & produits logiciels

Transformer les échecs d'agents et de logiciels IA en signal utile.

J'aide les labs IA, les équipes produit et les entreprises qui développent des logiciels où l'IA change la délégation, la vérification, l'interprétation ou la responsabilité. Le sujet n'est pas le logiciel en général : c'est l'activité réelle que le système transforme, soutient ou rend plus fragile.

Ce que j'apporte aux équipes agents et produit

Claim-Action-Evidence Discipline

Une évaluation utile ne s'arrête pas à "l'agent a-t-il appelé un outil ?" ou "la réponse paraît-elle plausible ?". Elle vérifie si l'affirmation finale est soutenue par une action réelle et une preuve récente, pertinente et observable.

Auto-perception du runtime

Beaucoup d'échecs viennent d'agents qui décrivent mal leur propre environnement : outils, mémoire, permissions, fichiers, logs, profils ou limites. Je travaille sur cette capacité à inspecter l'exécution réelle plutôt qu'à répondre depuis des priors.

Croyance opérationnelle induite

La sortie finale d'un agent modifie ce que l'humain croit de l'état du travail. Si l'agent dit "c'est fait" sans preuve, il ne produit pas seulement une mauvaise réponse : il fait arrêter la surveillance trop tôt.

Production readiness par enveloppe

Un modèle, un agent ou un logiciel augmenté n'est jamais "prêt pour la production" en général. Il l'est pour une enveloppe : classe de tâches, utilisateurs, outillage, garde-fous, niveau d'autonomie, politique de fallback et conditions de reprise.

Travail récent anonymisé

Des traces réelles transformées en cas rejouables.

Un chantier récent avec une équipe post-training d'un laboratoire IA a consisté à transformer des traces d'agents proches production en familles d'échecs, cas rejouables, oracles et matrices de régression. Le but : lire la fiabilité comme un diagnostic d'activité, pas comme un score abstrait.

100
cas candidats structurés à partir de situations réelles d'usage agentique.
24
cas replay-ready et oracle-locked couvrant huit axes d'usage quotidien.
72
tentatives analysées dans un protocole répété pour distinguer réussite, blocker honnête et échec silencieux.

Quand travailler ensemble

Cette collaboration est utile quand les traces d'agents, de copilotes ou de produits logiciels montrent des familles d'échecs récurrentes : fausses complétions, mauvaise lecture du runtime, récupération insuffisante après erreur d'outil, mauvais état cible, ou affirmation finale non soutenue par l'état observé.

Le produit attendu n'est pas un score de plus. C'est une lecture diagnostique : quelles familles d'échecs persistent, sur quelles surfaces, avec quels modes de raisonnement, et quels garde-fous préservent ou non la vérité opérationnelle.

English version

The AI lab track is also available in English, with the more technical framing around Claim-Action-Evidence, runtime self-awareness, and production readiness.

Read the English labs page

Parlons du travail à transformer

Pour une intervention, une conférence ou un échange sur l'IA, l'organisation et les conditions concrètes de travail, écrivez-moi directement. Si le sujet est encore flou, la demande guidée aide à formuler les éléments utiles.