Instances gérées, chemins de promotion, smoke checks, rollback par cible et séparation entre dogfood, bêta et rerun contrôlé.
Labs IA · preuve et méthode
Transformer les échecs d’agents en signal utile.
Labs documente l’observatoire terrain construit autour de la flotte Hermes : usages opt-in, traces réduites, cas rejouables, oracles et critères de reprise. Pas un leaderboard. Pas un dump.
Observatoire terrain
Une flotte vivante, pas un benchmark de laboratoire.
La valeur ne vient pas du nombre de logs. Elle vient de la capacité à observer des agents dans de vraies boucles de travail, puis à réduire ce signal sans exposer la matière privée.
Métadonnées minimales : surface logique, modèle, endpoint, fenêtre UTC, session locale et jointure provider quand elle est explicitement disponible.
Les sessions deviennent des cas : obligation, environnement, action observée, post-état, oracle, famille CAE et attribution modèle/runtime/outil.
Pas de dumps clients, pas de messages privés, pas de secrets, pas de chemins locaux complets, pas de traces brutes dans les artefacts publics ou commerciaux.
Méthode
Ce qui rend une trace exploitable.
Une trace utile montre ce qui s’est passé, ce qui a été tenté, ce qui reste vérifiable et quelle décision produit en découle.
Flotte Hermes opérée, surfaces dogfood et bêta opt-in, canary, isolation runtime, promotion contrôlée et rollback documenté.
Situation, outil, preuve d’état, action tentée, blocker, affirmation finale et risque induit pour l’humain.
Intention, état cible, reproduction, oracle, famille d’échec et note de risque humain.
Les mêmes cas servent à distinguer progrès local, régression silencieuse, changement de surface et faux succès.
Familles d’échec
Ce qu’une trace rend décidable.
Cinq cas réduits et anonymisés, classés par l’endroit où la boucle casse. Le dernier est un contrôle positif : un blocage honnête, le comportement à renforcer.
Format de preuve
Field-Signal Pilot.
Une offre courte pour convertir du signal terrain privacy-bounded en matériaux exploitables par une équipe post-training, evals ou produit. Le déploiement organisationnel reste chez Ergonomia.
Un pilote court vise peu de cas, mais des cas frais, dédupliqués, privacy-safe, classés et reliés à un oracle observable.
Chaque cas explicite la tâche, les outils, l’état initial, le comportement attendu, le post-état vérifiable et la décision produit.
Un échec utile dit où agir : comportement modèle, contrat d’outil, harness, permission, mémoire, supervision ou définition de “done”.
Le pilote vend la réduction et la reproductibilité. Les données brutes, contenus client et échanges privés restent hors surface.
Voir l’observatoire.
Comprendre comment la flotte transforme l’activité agentique réelle en signal réduit, vérifiable et reprenable.
Discuter un Field Signal Pilot.
Pour une équipe evals, post-training ou produit qui veut des cas terrain réduits sans matière brute.
Contact
Écrire à Julien
Pour une intervention, une conférence ou un échange sur l'IA, l'organisation et le travail réel, envoyez simplement la situation, la décision à prendre et la contrainte visible.