skill-evaluatorlisted

Evaluate any skill before installing. Run security gate, score trigger precision, execution quality, and cost efficiency. Get a yes/no recommendation. Use when users find a new skill and ask "这个技能值不值得装？" v3.1: 脚本计数精度+信息密度阈值+脚本完整性检查
huajielong/skill-evaluator · ★ 4 · AI & Automation · score 83

Install: claude install-skill huajielong/skill-evaluator

# 技能评估器评估一个技能是否值得安装。两步走：安全门禁 → 类型评分。 ## 铁律 1. **安全门禁不通过，不得评分。** 直接否决。 2. **得分 ≤ 50，建议"不安装"。** 除非用户明确说"我知道、我接受"。 3. **不确定技能类型，先问用户。** 不替用户做假设。 ## 流程 ### 步骤 0：确定技能位置用户没给路径 → 问文件路径或 .skill 文件位置。 ### 步骤 1：安全门禁使用 `scripts/evaluate.sh --security <path>` 自动扫描。如果 Bash 不可用（如 Claude.ai），逐项手动检查： | # | 检查项 | 手动方法 | |:-:|:-------|:---------| | 1 | 脚本可读 | 打开 scripts/ 下所有文件看是否可读 | | 2 | 网络外呼 | 全文搜索 curl/wget/fetch 等函数调用 | | 3 | 凭证采集 | 搜索 api.key/token/secret/password | | 4 | 远程代码 | 搜索 curl/wget 管道到 bash/sh | | 5 | 安全绕过 | 搜索"自动批准/关掉权限" | **输出格式统一：** `✅` 或 `❌` 逐项列出，任意 ❌ 则终止，输出"高风险"。 ### 步骤 2：确定技能类型问用户： > "这是 **普通技能**（日常用）还是 **元技能**（用来创建/评估其他技能的）？" 用户不确定 → 看描述和目录结构辅助判断。 ### 步骤 3：评分 **自动检查优先，主观项问用户。** 每个维度的评分流程： 1. 先运行自动化检查（脚本/行数/grep） 2. 能确定的直接打分 3. 需要主观判断的（如触发精确度），简洁问 1-2 个问题后打分 4. 记录每个维度的得分和理由 **普通技能** → 读 `references/consumer-card.md`（v3.0），5 维度 **元技能** → 读 `references/meta-skill-card.md`（v3.0），6 维度 **重要评分原则：** 1. **来源权重最高** — 官方/可信来源的技能，自动获得可信高分（来源可靠本身就是最大的质量信号） 2. **价值 > 合规** — 不要求"铁律表/验证步骤/Good-Bad示例"等格式；只看实际产出质量 3. **脚本为王** — 有真实可执行脚本的技能价值远高于纯描述技能（实证：有脚本平均高出 19 分） 4. **精炼加分** — ≤150 行的精炼技能获得经济性附加分；短而精确优于长而全 5. **密度决定经济分** — 超过 50% 泛化内容的长技能(>500行)应受到信息密度扣分 ### 步骤 4：输出最终报告 ``` ═══════════════════════════════════════════ 技能评估报告 ═══════════════════════════════════════════ 技能：xxx.skill 类型：普通技能安全：✅ 通过 ┌─ 维度得分理由 ├ 触发精确度 20/25 描述清晰无负例 ├ 执行-完整 12/15 指令有少量缺口 ├ 执行-知识 9/12 scripts/ 提供自动化 ├ 执行-可靠 6/8 无已知问题 ├ 经济性