evals-runnerlisted
Install: claude install-skill enriquerodrig/regulaitor
# evals-runner
Procedimiento canónico para correr la evaluación de RegulAItor de forma reproducible y para leer el report sin malinterpretarlo.
## Cuándo invocarme
- Antes de correr `make eval` (validar que el budget Anthropic está disponible y que la gold set está estable).
- Después de modificar prompts del Analyst/Auditor, retriever config, o el sanitizer — para confirmar que las métricas no han regresado.
- Cuando el examinador pide "muéstrame los resultados" — el report committed en `main` es la respuesta canónica.
- Cuando se piensa extender el gold set (H10+ tendrá ≥60 casos con 40% modo documento).
## Procedimiento estándar
### 1. Verificar budget
```bash
test -n "$ANTHROPIC_API_KEY" && echo "OK" || echo "MISSING"
```
Una full run cuesta ~$3-5 (Sonnet 4.6 producción + Haiku 4.5 judge + Ragas internal). Verificar saldo en https://console.anthropic.com/billing antes de arrancar.
### 2. Run estratégico por tipo de cambio
| Cambio | Comando | Coste |
|---|---|---|
| Doc-only / report formatting | `make eval-from-cache` | €0 (cache hit en judge layer) |
| Harness logic, métricas, criterios | `make eval-subset` (~$0.30) → si OK, `make eval` (~$3-5) | total ~$3-5 |
| Prompts del Analyst / Auditor, retriever config, sanitizer | `make eval` directo (todas las llamadas a Sonnet/Ragas serán cache miss) | ~$3-5 |
| Gold set extension (añadir cases) | `make eval-subset` con `--subset` que cubra solo los nuevos | proporcional |
**Caveat crítico**: `make eval-from-cache` SO