llm-observabilitylisted

【LLM 可观测性】为 AI Agent 系统设计可观测性方案。触发时机：用户说"agent 监控"、"LLM 可观测性"、"agent tracing"、"agent 日志"时。
afine907/skills · ★ 0 · AI & Automation · score 75

Install: claude install-skill afine907/skills

# LLM Observability — AI Agent 可观测性设计为 AI Agent 系统设计可观测性方案，覆盖传统 APM 无法触及的 Agent 决策质量维度。 > **核心洞察：** 系统可以是基础设施健康的，同时完全错误。Agent 可以在幻觉的同时返回 200，在保持延迟阈值内的同时运行循环。传统监控不够。 ## Goal 为 AI Agent 系统设计可观测性方案。覆盖决策追踪、上下文健康监控、工具调用审计、成本追踪和异常告警 ## Trigger - 用户说"agent 监控"、"LLM 可观测性"、"agent tracing"、"agent 日志" - 为 Agent 系统构建监控 - 调试为什么 Agent 在长对话中退化 - 需要了解生产环境中 Agent 的决策质量 ## 工作流程 ``` 识别 Agent 生命周期 → 定义追踪 Schema → 埋点决策点 → 配置仪表盘 → 配置告警 ``` ## Step 1: Agent 生命周期模型将 Agent 执行分解为可观测的阶段： ``` 用户输入 → [1] 提示构建（组装系统提示 + 历史 + 用户输入） → [2] LLM 推理（发送到模型、获取响应） → [3] 决策解析（提取工具调用或最终回答） → [4] 工具执行（调用工具、获取结果） → [5] 结果整合（将工具结果反馈给 LLM 或返回用户） → [6] 上下文管理（压缩、摘要、清理） → 循环 [2]-[5] 直到完成 ``` **每个阶段都需要独立埋点**，因为不同阶段的失败模式完全不同： - 阶段 1 失败 → 提示拼接错误 - 阶段 2 失败 → 模型超时/限流 - 阶段 3 失败 → 响应解析错误 - 阶段 4 失败 → 工具调用失败（最常见的 Agent 失败模式） - 阶段 5 失败 → 结果整合错误 - 阶段 6 失败 → 上下文退化 ## Step 2: 决策追踪 Schema 每个 Agent 执行步骤生成一条追踪记录： ```json { "trace_id": "唯一追踪ID", "session_id": "会话ID", "step_number": 3, "timestamp": "2026-05-29T10:30:00Z", "input": { "context_tokens": 4500, "context_utilization": 0.45, "relevant_history_steps": [1, 2] }, "llm_call": { "model": "claude-sonnet-4", "input_tokens": 3200, "output_tokens": 450, "latency_ms": 1850, "cost_usd": 0.0165 }, "decision": { "type": "tool_call", "tool_name": "search_documents", "tool_params": {"query": "2024 Q3 report"}, "confidence"