← ClaudeAtlas

llm-observabilitylisted

【LLM 可观测性】为 AI Agent 系统设计可观测性方案。触发时机:用户说"agent 监控"、"LLM 可观测性"、"agent tracing"、"agent 日志"时。
afine907/skills · ★ 0 · AI & Automation · score 75
Install: claude install-skill afine907/skills
# LLM Observability — AI Agent 可观测性设计 为 AI Agent 系统设计可观测性方案,覆盖传统 APM 无法触及的 Agent 决策质量维度。 > **核心洞察:** 系统可以是基础设施健康的,同时完全错误。Agent 可以在幻觉的同时返回 200,在保持延迟阈值内的同时运行循环。传统监控不够。 ## Goal 为 AI Agent 系统设计可观测性方案。覆盖决策追踪、上下文健康监控、工具调用审计、成本追踪和异常告警 ## Trigger - 用户说"agent 监控"、"LLM 可观测性"、"agent tracing"、"agent 日志" - 为 Agent 系统构建监控 - 调试为什么 Agent 在长对话中退化 - 需要了解生产环境中 Agent 的决策质量 ## 工作流程 ``` 识别 Agent 生命周期 → 定义追踪 Schema → 埋点决策点 → 配置仪表盘 → 配置告警 ``` ## Step 1: Agent 生命周期模型 将 Agent 执行分解为可观测的阶段: ``` 用户输入 → [1] 提示构建(组装系统提示 + 历史 + 用户输入) → [2] LLM 推理(发送到模型、获取响应) → [3] 决策解析(提取工具调用或最终回答) → [4] 工具执行(调用工具、获取结果) → [5] 结果整合(将工具结果反馈给 LLM 或返回用户) → [6] 上下文管理(压缩、摘要、清理) → 循环 [2]-[5] 直到完成 ``` **每个阶段都需要独立埋点**,因为不同阶段的失败模式完全不同: - 阶段 1 失败 → 提示拼接错误 - 阶段 2 失败 → 模型超时/限流 - 阶段 3 失败 → 响应解析错误 - 阶段 4 失败 → 工具调用失败(最常见的 Agent 失败模式) - 阶段 5 失败 → 结果整合错误 - 阶段 6 失败 → 上下文退化 ## Step 2: 决策追踪 Schema 每个 Agent 执行步骤生成一条追踪记录: ```json { "trace_id": "唯一追踪ID", "session_id": "会话ID", "step_number": 3, "timestamp": "2026-05-29T10:30:00Z", "input": { "context_tokens": 4500, "context_utilization": 0.45, "relevant_history_steps": [1, 2] }, "llm_call": { "model": "claude-sonnet-4", "input_tokens": 3200, "output_tokens": 450, "latency_ms": 1850, "cost_usd": 0.0165 }, "decision": { "type": "tool_call", "tool_name": "search_documents", "tool_params": {"query": "2024 Q3 report"}, "confidence"