evals-runnerlisted

Use this skill when running the H8 evaluation harness, reading `evals/reports/latest.md`, deciding whether to re-run, or extending the gold set. Activates from H8 onwards.
enriquerodrig/regulaitor · ★ 0 · AI & Automation · score 65

Install: claude install-skill enriquerodrig/regulaitor

# evals-runner Procedimiento canónico para correr la evaluación de RegulAItor de forma reproducible y para leer el report sin malinterpretarlo. ## Cuándo invocarme - Antes de correr `make eval` (validar que el budget Anthropic está disponible y que la gold set está estable). - Después de modificar prompts del Analyst/Auditor, retriever config, o el sanitizer — para confirmar que las métricas no han regresado. - Cuando el examinador pide "muéstrame los resultados" — el report committed en `main` es la respuesta canónica. - Cuando se piensa extender el gold set (H10+ tendrá ≥60 casos con 40% modo documento). ## Procedimiento estándar ### 1. Verificar budget ```bash test -n "$ANTHROPIC_API_KEY" && echo "OK" || echo "MISSING" ``` Una full run cuesta ~$3-5 (Sonnet 4.6 producción + Haiku 4.5 judge + Ragas internal). Verificar saldo en https://console.anthropic.com/billing antes de arrancar. ### 2. Run estratégico por tipo de cambio | Cambio | Comando | Coste | |---|---|---| | Doc-only / report formatting | `make eval-from-cache` | €0 (cache hit en judge layer) | | Harness logic, métricas, criterios | `make eval-subset` (~$0.30) → si OK, `make eval` (~$3-5) | total ~$3-5 | | Prompts del Analyst / Auditor, retriever config, sanitizer | `make eval` directo (todas las llamadas a Sonnet/Ragas serán cache miss) | ~$3-5 | | Gold set extension (añadir cases) | `make eval-subset` con `--subset` que cubra solo los nuevos | proporcional | **Caveat crítico**: `make eval-from-cache` SO