llm-observabilitylisted
Install: claude install-skill afine907/skills
# LLM Observability — AI Agent 可观测性设计
为 AI Agent 系统设计可观测性方案,覆盖传统 APM 无法触及的 Agent 决策质量维度。
> **核心洞察:** 系统可以是基础设施健康的,同时完全错误。Agent 可以在幻觉的同时返回 200,在保持延迟阈值内的同时运行循环。传统监控不够。
## Goal
为 AI Agent 系统设计可观测性方案。覆盖决策追踪、上下文健康监控、工具调用审计、成本追踪和异常告警
## Trigger
- 用户说"agent 监控"、"LLM 可观测性"、"agent tracing"、"agent 日志"
- 为 Agent 系统构建监控
- 调试为什么 Agent 在长对话中退化
- 需要了解生产环境中 Agent 的决策质量
## 工作流程
```
识别 Agent 生命周期 → 定义追踪 Schema → 埋点决策点 → 配置仪表盘 → 配置告警
```
## Step 1: Agent 生命周期模型
将 Agent 执行分解为可观测的阶段:
```
用户输入
→ [1] 提示构建(组装系统提示 + 历史 + 用户输入)
→ [2] LLM 推理(发送到模型、获取响应)
→ [3] 决策解析(提取工具调用或最终回答)
→ [4] 工具执行(调用工具、获取结果)
→ [5] 结果整合(将工具结果反馈给 LLM 或返回用户)
→ [6] 上下文管理(压缩、摘要、清理)
→ 循环 [2]-[5] 直到完成
```
**每个阶段都需要独立埋点**,因为不同阶段的失败模式完全不同:
- 阶段 1 失败 → 提示拼接错误
- 阶段 2 失败 → 模型超时/限流
- 阶段 3 失败 → 响应解析错误
- 阶段 4 失败 → 工具调用失败(最常见的 Agent 失败模式)
- 阶段 5 失败 → 结果整合错误
- 阶段 6 失败 → 上下文退化
## Step 2: 决策追踪 Schema
每个 Agent 执行步骤生成一条追踪记录:
```json
{
"trace_id": "唯一追踪ID",
"session_id": "会话ID",
"step_number": 3,
"timestamp": "2026-05-29T10:30:00Z",
"input": {
"context_tokens": 4500,
"context_utilization": 0.45,
"relevant_history_steps": [1, 2]
},
"llm_call": {
"model": "claude-sonnet-4",
"input_tokens": 3200,
"output_tokens": 450,
"latency_ms": 1850,
"cost_usd": 0.0165
},
"decision": {
"type": "tool_call",
"tool_name": "search_documents",
"tool_params": {"query": "2024 Q3 report"},
"confidence"