darwin-skilllisted

Darwin Skill (达尔文.skill): autonomous skill optimizer inspired by Karpathy's autoresearch. Evaluates SKILL.md files using an 8-dimension rubric (structure + effectiveness), runs hill-climbing with git version control, validates improvements through test prompts, and generates visual result cards. Use when user mentions "优化skill", "skill评分", "自动优化", "auto optimize", "skill质量检查", "达尔文", "darwin", "帮我改改skill", "skill怎么样", "提升skill质量", "skill review", "skill打分".
Wool-xing/Test-Agent · ★ 4 · AI & Automation · score 73

Install: claude install-skill Wool-xing/Test-Agent

# Darwin Skill **Modified from upstream [alchaincyf/darwin-skill](https://github.com/alchaincyf/darwin-skill)** (MIT-equivalent upstream README declaration; local LICENSE file added in Test-Agent's distribution). Test-Agent 项目内修订:删除上游 README 的个人推广段;`SKILL.md` 内示例数据(原作者自家 skill 命名前缀)替换为 Test-Agent 业务 skill 名;评分文案中的原作者生态绑定语改为通用项目语境。LICENSE 见同级 `LICENSE` 文件。 > 借鉴 Karpathy autoresearch 的自主实验循环，对 skills 进行持续优化。 > 核心理念：**评估 → 改进 → 实测验证 → 人类确认 → 保留或回滚 → 生成成果卡片** > GitHub: https://github.com/alchaincyf/darwin-skill --- ## 设计哲学 autoresearch 的精髓： 1. **单一可编辑资产** — 每次只改一个 SKILL.md 2. **双重评估** — 结构评分（静态分析）+ 效果验证（跑测试看输出） 3. **棘轮机制** — 只保留改进，自动回滚退步 4. **独立评分** — 评分用子agent，避免「自己改自己评」的偏差 5. **人在回路** — 每个skill优化完后暂停，用户确认再继续与纯结构审查的区别：不只看 SKILL.md 写得规不规范，更看改完后**实际跑出来的效果是否更好**。 --- ## 评估 Rubric（8维度，总分100） ### 结构维度（60分）— 静态分析 | # | 维度 | 权重 | 评分标准 | |---|------|------|---------| | 1 | **Frontmatter质量** | 8 | name规范、description包含做什么+何时用+触发词、≤1024字符 | | 2 | **工作流清晰度** | 15 | 步骤明确可执行、有序号、每步有明确输入/输出 | | 3 | **边界条件覆盖** | 10 | 处理异常情况、有fallback路径、错误恢复 | | 4 | **检查点设计** | 7 | 关键决策前有用户确认、防止自主失控 | | 5 | **指令具体性** | 15 | 不模糊、有具体参数/格式/示例、可直接执行 | | 6 | **资源整合度** | 5 | references/scripts/assets引用正确、路径可达 | ### 效果维度（40分）— 需要实测 | # | 维度 | 权重 | 评分标准 | |---|------|------|---------| | 7 | **整体架构** | 15 | 结构层次清晰、不冗余不遗漏、与项目目录风格一致 | | 8 | **实测表现** | 25 | 用测试prompt跑一遍，输出质量是否符合skill宣称的能力 | ### 评分规则 - 维度1-7：每个维度打 1-10 分，乘以权重得到该维度得分 - 维度8（实测表现）：跑2-3个测试prompt，按输出质量打1-10分 - **总分 = Σ(维度分 × 权重) / 10**，满分100 - 改进后总分