← ClaudeAtlas

agent-securitylisted

【Agent 安全】AI Agent 安全设计与威胁建模。触发时机:用户说"agent 安全"、"prompt injection"、"agent 权限"、"HITL"时。
afine907/skills · ★ 0 · AI & Automation · score 75
Install: claude install-skill afine907/skills
# Agent Security — AI Agent 安全框架 AI Agent 专用的安全设计模式,应对 Agent 系统特有的威胁面。 > **核心洞察:** 拥有生产级权限的 AI Agent,从安全角度看是一个高权限进程。它可以被 Prompt Injection 操纵,执行非预期操作。这不是模型问题,是系统设计问题。 ## Goal AI Agent 安全模式。覆盖 Prompt Injection 防御、权限分层设计、HITL 门禁、数据泄露防护和 Agent 威胁建模 ## Trigger - 用户说"agent 安全"、"prompt injection"、"agent 权限"、"HITL"、"agent threat model" - 为 Agent 系统设计安全控制 - 审查 Agent 代码中的安全漏洞 - 实现权限分层和人机协作门禁 ## 工作流程 ``` 威胁建模 → 分类权限 → 设计 HITL 门禁 → 实现防御 → 审计测试 ``` ## Step 1: Agent 威胁模型 Agent 系统面临 6 类特有威胁: ### 威胁分类 | 威胁 | 描述 | 风险等级 | 缓解措施 | |------|------|---------|---------| | **Prompt Injection(直接)** | 用户直接在输入中注入恶意指令 | Critical | 输入消毒 + 指令层级 | | **Prompt Injection(间接)** | 通过工具返回的数据注入恶意指令 | Critical | 工具输出消毒 + 上下文隔离 | | **工具滥用** | Agent 被操纵调用危险工具 | Critical | 权限分层 + HITL 门禁 | | **数据泄露** | Agent 通过输出泄露敏感信息 | High | 输出过滤 + PII 检测 | | **上下文投毒** | 通过对抗输入腐化 Agent 状态 | High | 上下文隔离 + 完整性校验 | | **资源耗尽** | 无限循环或过度调用导致成本失控 | High | 断路器 + 成本上限 | ### 威胁分析模板 ``` 对每个 Agent 功能: 1. 识别输入源(用户输入、工具返回、外部数据) 2. 评估每个输入源的可信度 3. 识别 Agent 可执行的操作(只读、写入、危险) 4. 评估每个操作的爆炸半径 5. 确定所需的安全控制级别 ``` > 详细威胁目录见 [references/threat-catalog.md](references/threat-catalog.md) ## Step 2: 权限分层设计 基于操作风险的 4 级权限模型: ### 权限层级定义 | 层级 | 名称 | 定义 | 示例 | 控制方式 | |------|------|------|------|---------| | **Tier 0** | 自治 | 只读操作,无副作用 | 搜索、查询、读取文件 | 自动执行 | | **Tier 1** | 确认 | 可逆的写入操作 | 创建分支、写临时文件、更新草稿 | 用户确认 | | **Tier 2** | 审批 | 不可逆或高影响操作 | 发送邮件、发布内容、删除数据 | 显式审批 +