Labs · eval-case v1

Un cas terrain, une ligne JSONL.

Chaque ligne décrit un échec opérationnel réduit : obligation, action observée, état postérieur, affirmation finale, oracle et risque humain. Pas de dump de session, pas de contenu client.

JSON Schema case/0012 complet Pourquoi pas les traces brutes

Unité d’évaluation

obligation → action → état observé → affirmation véridique

Les échecs terrain révèlent où la chaîne casse. eval-case v1 garde la structure causale, retire le matériel privé, verrouille l’oracle et rend la cassure rejouable.

Champs requis

requis spec

Toujours eval-case-v1 — version du format.

requis case_id

Identifiant case/NNNN (ex. case/0012).

requis family

Famille d’échec : FCE, RF, EMF, EGF, TBC.

requis intent

Obligation humaine déléguée à l’agent.

requis observed_state

État postérieur vérifiable de l’environnement.

requis final_claim

Affirmation finale de l’agent en fin de boucle.

requis claim_supported

Invariant : affirmation finale ≤ preuve observable.

requis human_risk

Ce que l’humain croirait ou ferait si l’affirmation était crue.

requis oracle

Preuve requise et gate (block_final_claim, require_evidence, reinforce_behavior).

requis provenance

capture: metadata-only — pas de dump client, pas de trace brute.

Familles d’échec

FCE false completion after a tool boundary

RF recovery failure (loop without adaptation)

EMF environment mapping failure

EGF exit-gate failure (closure without post-state check)

TBC truthful blocker (positive control)

Frontière de confidentialité

provenance.capture est toujours metadata-only. Surfaces logiques uniquement — jamais de nom client, hostname, chemin local complet, message privé ou secret. Le signal vient de la structure causale, pas du dump brut.