agent-evallisted
Install: claude install-skill afine907/skills
# Agent Eval — AI Agent 输出质量评估框架
评估 AI Agent 输出质量,适配 LLM 非确定性输出的统计评估方法。
> **核心洞察:** AI Agent 是非确定性的——同一输入可以产生不同但都正确的输出。传统 QA 的"精确匹配"范式不适用,需要转向"行为属性验证 + 统计采样"。
## Goal
评估 AI Agent 输出质量。覆盖幻觉检测、工具调用准确率、连贯性评分、任务完成验证。支持非确定性输出的统计评估
## Trigger
- 用户说"评估 agent"、"测试 agent 质量"、"agent eval"、"检查 agent 输出"
- 构建完 Agent 后需要验证其是否正常工作
- 调试为什么 Agent 产生错误结果
- 对比两个 Agent 配置或提示的效果
## 工作流程
```
定义评估维度 → 构建测试用例 → 执行评估 → 评分输出 → 生成报告
```
## Step 1: 定义评估维度
根据 Agent 类型选择适用的评估维度:
| 维度 | 定义 | 评分方式 | 适用场景 |
|------|------|---------|---------|
| **幻觉率** | 输出中包含的事实错误或虚构信息 | 事实核查 + 引用验证 | 知识问答、信息检索 |
| **工具准确率** | 选择了正确的工具、传递了正确参数、正确处理了结果 | 工具调用日志比对 | 工具使用 Agent |
| **连贯性** | 多步推理中上下文一致、无矛盾、角色稳定 | 一致性检查 + 矛盾检测 | 对话 Agent、长任务 |
| **任务完成率** | 目标达成、输出格式正确、边界情况处理 | 结果验证 + 格式检查 | 任务型 Agent |
| **安全合规** | 拒绝有害请求、不泄露敏感信息、遵循约束 | 安全测试 + 红队攻击 | 面向用户的 Agent |
| **延迟/成本** | 响应时间、Token 消耗、API 调用次数 | 性能指标采集 | 所有 Agent |
> 详细评分标准见 [references/eval-dimensions.md](references/eval-dimensions.md)
## Step 2: 构建评估测试用例
### 测试用例结构
```json
{
"id": "eval-001",
"name": "正常查询-事实型",
"input": "用户的问题或任务描述",
"context": "可选:对话历史、系统提示、可用工具列表",
"expected_behavior": "预期行为描述(非精确输出)",
"scoring_criteria": {
"hallucination": "输出中的事实必须可溯源",
"tool_accuracy": "应调用 search_api 工具",
"coherence": "回答应与上下文一致"
},
"pass_threshold": 0.8,
"tags": ["happy-path", "factual"]
}
```
### 测试用例矩阵
| 类别 | 覆盖点 | 数量建议 |
|------|--------|---------|
| **正常路径