agent-securitylisted
Install: claude install-skill afine907/skills
# Agent Security — AI Agent 安全框架
AI Agent 专用的安全设计模式,应对 Agent 系统特有的威胁面。
> **核心洞察:** 拥有生产级权限的 AI Agent,从安全角度看是一个高权限进程。它可以被 Prompt Injection 操纵,执行非预期操作。这不是模型问题,是系统设计问题。
## Goal
AI Agent 安全模式。覆盖 Prompt Injection 防御、权限分层设计、HITL 门禁、数据泄露防护和 Agent 威胁建模
## Trigger
- 用户说"agent 安全"、"prompt injection"、"agent 权限"、"HITL"、"agent threat model"
- 为 Agent 系统设计安全控制
- 审查 Agent 代码中的安全漏洞
- 实现权限分层和人机协作门禁
## 工作流程
```
威胁建模 → 分类权限 → 设计 HITL 门禁 → 实现防御 → 审计测试
```
## Step 1: Agent 威胁模型
Agent 系统面临 6 类特有威胁:
### 威胁分类
| 威胁 | 描述 | 风险等级 | 缓解措施 |
|------|------|---------|---------|
| **Prompt Injection(直接)** | 用户直接在输入中注入恶意指令 | Critical | 输入消毒 + 指令层级 |
| **Prompt Injection(间接)** | 通过工具返回的数据注入恶意指令 | Critical | 工具输出消毒 + 上下文隔离 |
| **工具滥用** | Agent 被操纵调用危险工具 | Critical | 权限分层 + HITL 门禁 |
| **数据泄露** | Agent 通过输出泄露敏感信息 | High | 输出过滤 + PII 检测 |
| **上下文投毒** | 通过对抗输入腐化 Agent 状态 | High | 上下文隔离 + 完整性校验 |
| **资源耗尽** | 无限循环或过度调用导致成本失控 | High | 断路器 + 成本上限 |
### 威胁分析模板
```
对每个 Agent 功能:
1. 识别输入源(用户输入、工具返回、外部数据)
2. 评估每个输入源的可信度
3. 识别 Agent 可执行的操作(只读、写入、危险)
4. 评估每个操作的爆炸半径
5. 确定所需的安全控制级别
```
> 详细威胁目录见 [references/threat-catalog.md](references/threat-catalog.md)
## Step 2: 权限分层设计
基于操作风险的 4 级权限模型:
### 权限层级定义
| 层级 | 名称 | 定义 | 示例 | 控制方式 |
|------|------|------|------|---------|
| **Tier 0** | 自治 | 只读操作,无副作用 | 搜索、查询、读取文件 | 自动执行 |
| **Tier 1** | 确认 | 可逆的写入操作 | 创建分支、写临时文件、更新草稿 | 用户确认 |
| **Tier 2** | 审批 | 不可逆或高影响操作 | 发送邮件、发布内容、删除数据 | 显式审批 +