darwin-skilllisted
Install: claude install-skill Wool-xing/Test-Agent
# Darwin Skill
**Modified from upstream [alchaincyf/darwin-skill](https://github.com/alchaincyf/darwin-skill)** (MIT-equivalent upstream README declaration; local LICENSE file added in Test-Agent's distribution). Test-Agent 项目内修订:删除上游 README 的个人推广段;`SKILL.md` 内示例数据(原作者自家 skill 命名前缀)替换为 Test-Agent 业务 skill 名;评分文案中的原作者生态绑定语改为通用项目语境。LICENSE 见同级 `LICENSE` 文件。
> 借鉴 Karpathy autoresearch 的自主实验循环,对 skills 进行持续优化。
> 核心理念:**评估 → 改进 → 实测验证 → 人类确认 → 保留或回滚 → 生成成果卡片**
> GitHub: https://github.com/alchaincyf/darwin-skill
---
## 设计哲学
autoresearch 的精髓:
1. **单一可编辑资产** — 每次只改一个 SKILL.md
2. **双重评估** — 结构评分(静态分析)+ 效果验证(跑测试看输出)
3. **棘轮机制** — 只保留改进,自动回滚退步
4. **独立评分** — 评分用子agent,避免「自己改自己评」的偏差
5. **人在回路** — 每个skill优化完后暂停,用户确认再继续
与纯结构审查的区别:不只看 SKILL.md 写得规不规范,更看改完后**实际跑出来的效果是否更好**。
---
## 评估 Rubric(8维度,总分100)
### 结构维度(60分)— 静态分析
| # | 维度 | 权重 | 评分标准 |
|---|------|------|---------|
| 1 | **Frontmatter质量** | 8 | name规范、description包含做什么+何时用+触发词、≤1024字符 |
| 2 | **工作流清晰度** | 15 | 步骤明确可执行、有序号、每步有明确输入/输出 |
| 3 | **边界条件覆盖** | 10 | 处理异常情况、有fallback路径、错误恢复 |
| 4 | **检查点设计** | 7 | 关键决策前有用户确认、防止自主失控 |
| 5 | **指令具体性** | 15 | 不模糊、有具体参数/格式/示例、可直接执行 |
| 6 | **资源整合度** | 5 | references/scripts/assets引用正确、路径可达 |
### 效果维度(40分)— 需要实测
| # | 维度 | 权重 | 评分标准 |
|---|------|------|---------|
| 7 | **整体架构** | 15 | 结构层次清晰、不冗余不遗漏、与项目目录风格一致 |
| 8 | **实测表现** | 25 | 用测试prompt跑一遍,输出质量是否符合skill宣称的能力 |
### 评分规则
- 维度1-7:每个维度打 1-10 分,乘以权重得到该维度得分
- 维度8(实测表现):跑2-3个测试prompt,按输出质量打1-10分
- **总分 = Σ(维度分 × 权重) / 10**,满分100
- 改进后总分