← ClaudeAtlas

skill-evaluatorlisted

Evaluate any skill before installing. Run security gate, score trigger precision, execution quality, and cost efficiency. Get a yes/no recommendation. Use when users find a new skill and ask "这个技能值不值得装?" v3.1: 脚本计数精度+信息密度阈值+脚本完整性检查
huajielong/skill-evaluator · ★ 4 · AI & Automation · score 83
Install: claude install-skill huajielong/skill-evaluator
# 技能评估器 评估一个技能是否值得安装。两步走:安全门禁 → 类型评分。 ## 铁律 1. **安全门禁不通过,不得评分。** 直接否决。 2. **得分 ≤ 50,建议"不安装"。** 除非用户明确说"我知道、我接受"。 3. **不确定技能类型,先问用户。** 不替用户做假设。 ## 流程 ### 步骤 0:确定技能位置 用户没给路径 → 问文件路径或 .skill 文件位置。 ### 步骤 1:安全门禁 使用 `scripts/evaluate.sh --security <path>` 自动扫描。如果 Bash 不可用(如 Claude.ai),逐项手动检查: | # | 检查项 | 手动方法 | |:-:|:-------|:---------| | 1 | 脚本可读 | 打开 scripts/ 下所有文件看是否可读 | | 2 | 网络外呼 | 全文搜索 curl/wget/fetch 等函数调用 | | 3 | 凭证采集 | 搜索 api.key/token/secret/password | | 4 | 远程代码 | 搜索 curl/wget 管道到 bash/sh | | 5 | 安全绕过 | 搜索"自动批准/关掉权限" | **输出格式统一:** `✅` 或 `❌` 逐项列出,任意 ❌ 则终止,输出"高风险"。 ### 步骤 2:确定技能类型 问用户: > "这是 **普通技能**(日常用)还是 **元技能**(用来创建/评估其他技能的)?" 用户不确定 → 看描述和目录结构辅助判断。 ### 步骤 3:评分 **自动检查优先,主观项问用户。** 每个维度的评分流程: 1. 先运行自动化检查(脚本/行数/grep) 2. 能确定的直接打分 3. 需要主观判断的(如触发精确度),简洁问 1-2 个问题后打分 4. 记录每个维度的得分和理由 **普通技能** → 读 `references/consumer-card.md`(v3.0),5 维度 **元技能** → 读 `references/meta-skill-card.md`(v3.0),6 维度 **重要评分原则:** 1. **来源权重最高** — 官方/可信来源的技能,自动获得可信高分(来源可靠本身就是最大的质量信号) 2. **价值 > 合规** — 不要求"铁律表/验证步骤/Good-Bad示例"等格式;只看实际产出质量 3. **脚本为王** — 有真实可执行脚本的技能价值远高于纯描述技能(实证:有脚本平均高出 19 分) 4. **精炼加分** — ≤150 行的精炼技能获得经济性附加分;短而精确优于长而全 5. **密度决定经济分** — 超过 50% 泛化内容的长技能(>500行)应受到信息密度扣分 ### 步骤 4:输出最终报告 ``` ═══════════════════════════════════════════ 技能评估报告 ═══════════════════════════════════════════ 技能:xxx.skill 类型:普通技能 安全:✅ 通过 ┌─ 维度 得分 理由 ├ 触发精确度 20/25 描述清晰无负例 ├ 执行-完整 12/15 指令有少量缺口 ├ 执行-知识 9/12 scripts/ 提供自动化 ├ 执行-可靠 6/8 无已知问题 ├ 经济性