aeon-skill-evals
Filet de qualité pour les skills installés. Chaque skill peut déclarer un manifest d'assertions ; les outputs sont vérifiés contre celui-ci ; les assertions échouées signalent les régressions et orientent vers des corrections concrètes.
Format du manifest
token-movers:
min_words: 200
required_patterns: ["Top movers", "24h"]
forbidden_patterns: ["I cannot", "as an AI"]
must_cite_source: true
min_distinct_items: 5
narrative-tracker:
min_words: 400
required_sections: ["TRANSITIONS", "POSITIONS", "MAP"]
forbidden_patterns: ["exciting", "consider"]
must_have_position_call: true
Assertions supportées : min_words / max_words, required_patterns / forbidden_patterns, required_sections, must_cite_source, min_distinct_items, output_pattern (regex), et des vérifications binaires personnalisées par skill-family.
Opérations
eval— exécute chaque skill défini dans le manifest contre son dernier output.eval --skill=NAME— un seul skill.bootstrap --skill=NAME— génère un manifest de démarrage à partir des exécutions récentes réussies.
États de régression
| État | Action |
|---|---|
NEW_FAIL |
Passant lors de la dernière exécution, échouant maintenant. La sévérité augmente avec la streak de réussite. |
NEW_PASS |
Échouant lors de la dernière exécution, passant maintenant. Enregistrer le succès. |
CHRONIC |
Échouant > 3 exécutions consécutives. Recommander un examen par l'opérateur. |
STABLE_FAIL |
Toujours échouant. Mismatch d'assertion du manifest — signaler pour examen. |
État dans le fichier local evals-state.json.
Mode bootstrap
Échantillonne les 5 dernières exécutions réussies d'un skill. Calcule :
min_wordsau p25 des exécutions historiques.- Patterns requis à partir des en-têtes de section courants.
- Patterns interdits à partir de la liste par défaut (refus, remplissage hésitant).
Émet le manifest proposé pour examen. Ne valide jamais automatiquement — les assertions nécessitent une validation humaine.
Règles
- Les assertions sont des observations, pas des spécifications. Faites un bootstrap avant d'écrire de manière spéculative.
- Les patterns interdits détectent les marqueurs d'hallucination et les refus. Gardez la liste serrée ; ne lintezvez pas les choix stylistiques.
- Les défaillances chroniques reçoivent une recommandation, pas un nouveau dépôt.
- Les changements de manifest sont révisés ; jamais auto-édités par ce skill.