spec Toujours eval-case-v1 — version du format.
Labs · eval-case v1
Chaque ligne décrit un échec opérationnel réduit : obligation, action observée, état postérieur, affirmation finale, oracle et risque humain. Pas de dump de session, pas de contenu client.
obligation → action → état observé → affirmation véridique Les échecs terrain révèlent où la chaîne casse. eval-case v1 garde la structure causale, retire le matériel privé, verrouille l’oracle et rend la cassure rejouable.
spec Toujours eval-case-v1 — version du format.
case_id Identifiant case/NNNN (ex. case/0012).
family Famille d’échec : FCE, RF, EMF, EGF, TBC.
intent Obligation humaine déléguée à l’agent.
observed_state État postérieur vérifiable de l’environnement.
final_claim Affirmation finale de l’agent en fin de boucle.
claim_supported Invariant : affirmation finale ≤ preuve observable.
human_risk Ce que l’humain croirait ou ferait si l’affirmation était crue.
oracle Preuve requise et gate (block_final_claim, require_evidence, reinforce_behavior).
provenance capture: metadata-only — pas de dump client, pas de trace brute.
provenance.capture est toujours metadata-only.
Surfaces logiques uniquement — jamais de nom client, hostname, chemin local complet, message privé ou secret.
Le signal vient de la structure causale, pas du dump brut.