Aller au contenu

Labs IA · preuve et méthode

Transformer les échecs d’agents en signal utile.

Labs documente l’observatoire terrain construit autour de la flotte Hermes : usages opt-in, traces réduites, cas rejouables, oracles et critères de reprise. Pas un leaderboard. Pas un dump.

Observatoire terrain

Une flotte vivante, pas un benchmark de laboratoire.

La valeur ne vient pas du nombre de logs. Elle vient de la capacité à observer des agents dans de vraies boucles de travail, puis à réduire ce signal sans exposer la matière privée.

Substrat Flotte Hermes opérée.

Instances gérées, chemins de promotion, smoke checks, rollback par cible et séparation entre dogfood, bêta et rerun contrôlé.

Capture Signal né reproductible.

Métadonnées minimales : surface logique, modèle, endpoint, fenêtre UTC, session locale et jointure provider quand elle est explicitement disponible.

Réduction Le brut reste local.

Les sessions deviennent des cas : obligation, environnement, action observée, post-état, oracle, famille CAE et attribution modèle/runtime/outil.

Frontière Privacy-bound by design.

Pas de dumps clients, pas de messages privés, pas de secrets, pas de chemins locaux complets, pas de traces brutes dans les artefacts publics ou commerciaux.

Méthode

Ce qui rend une trace exploitable.

Une trace utile montre ce qui s’est passé, ce qui a été tenté, ce qui reste vérifiable et quelle décision produit en découle.

Fleet observatory Observer des boucles d’agents en usage réel.

Flotte Hermes opérée, surfaces dogfood et bêta opt-in, canary, isolation runtime, promotion contrôlée et rollback documenté.

Trace index Réduire les traces sans perdre le contexte.

Situation, outil, preuve d’état, action tentée, blocker, affirmation finale et risque induit pour l’humain.

Case cards Transformer les échecs en cas lisibles.

Intention, état cible, reproduction, oracle, famille d’échec et note de risque humain.

Checkpoint deltas Comparer sans confondre progrès et régression.

Les mêmes cas servent à distinguer progrès local, régression silencieuse, changement de surface et faux succès.

Familles d’échec

Ce qu’une trace rend décidable.

Cinq cas réduits et anonymisés, classés par l’endroit où la boucle casse. Le dernier est un contrôle positif : un blocage honnête, le comportement à renforcer.

Format de preuve

Field-Signal Pilot.

Une offre courte pour convertir du signal terrain privacy-bounded en matériaux exploitables par une équipe post-training, evals ou produit. Le déploiement organisationnel reste chez Ergonomia.

Scope 3 à 5 cas de haute qualité.

Un pilote court vise peu de cas, mais des cas frais, dédupliqués, privacy-safe, classés et reliés à un oracle observable.

Format Case cards + JSONL + oracles.

Chaque cas explicite la tâche, les outils, l’état initial, le comportement attendu, le post-état vérifiable et la décision produit.

Attribution Séparer modèle, outil et runtime.

Un échec utile dit où agir : comportement modèle, contrat d’outil, harness, permission, mémoire, supervision ou définition de “done”.

Boundary Offre de format, pas dump de données.

Le pilote vend la réduction et la reproductibilité. Les données brutes, contenus client et échanges privés restent hors surface.

Contact

Écrire à Julien

Pour une intervention, une conférence ou un échange sur l'IA, l'organisation et le travail réel, envoyez simplement la situation, la décision à prendre et la contrainte visible.