Production blockers · eval-case v1
Signal terrain pour agents réels.
Agent Ergonomics = human factors for AI operators. Des blockers observés dans du travail non-dev, réduits en repros eval-ready : claim, action, preuve, oracle, frontière. J'identifie les moments où l'agent affirme sans preuve exploitable.
Ce signal vient d'une flotte d'agents opérée en conditions réelles → Agents
case/0012 · hermes-agent
Une trace réduite, inspectable.
Un blocker réel : l'agent prépare une branche et déclare « done » sans preuve d'exécution des tests. Le cas est réduit en repro eval-ready, public et téléchargeable.
- Famille FCE — fausse complétion après une frontière d'outil
- Capture metadata-only : ni contenu client, ni secrets, ni chemins complets
- JSONL public, conforme au schéma eval-case v1
Réduction en eval
Le même cas, trois angles.
Un blocker terrain ne devient utile que réduit. Trace, oracle, replay : le moment d'échec est rendu rejouable et testable, sans la session brute.
- Trace — le claim, l'action et l'état observé
- Oracle — la preuve exigée avant tout « done »
- Replay — le verdict reproductible et la gate déclenchée
Familles de blockers
Là où l'agent affirme sans preuve.
Le travail récurrent : repérer le moment où l'agent franchit une frontière d'outil et déclare un résultat que rien n'atteste. C'est ce moment qui devient un cas.
- Claim sans preuve exploitable — le cœur du signal
- Frontière d'outil franchie sans vérification
- Risque humain : merger un travail dit « fait » mais non vérifié
Record
Vérifiable sans croire cette page.
La flotte fait tourner Hermes Agent, de Nous Research, dans de vraies boucles de travail. Les constats peuvent remonter vers des issues et pull requests upstream sans exposer les traces privées.
Un signal d’usage d’outils observé sur le terrain a été réduit en motif d’issue upstream, puis adopté et mergé par le mainteneur de hermes-agent.
Crédit Continuité de cache conversationnel — crédit upstream.Un patch de continuité de cache testé sur le terrain a été crédité et cherry-pické dans la mainline hermes-agent.
Corpus Traces réduites, pas sessions brutes.Le cadrage public derrière le format d’eval et la frontière de confidentialité.
Travailler le signal terrain
Un blocker à réduire ?
Inspecter un cas, parler d'un set de blockers, ou cadrer un format d'eval : scope, confidentialité et livrable décidés d'abord.