Skill 系列(01):Skill 评测体系——如何量化一个 AI Skill 的质量

发布时间:2026/6/22 15:12:29
Skill 系列(01):Skill 评测体系——如何量化一个 AI Skill 的质量 Skill 评测的两层问题普通软件测试只有一层:代码跑对了吗?Skill 有两层:层 1 — Trigger 层:LLM 有没有判断"这句话需要调用这个 Skill"? 层 2 — Execution 层:Skill 内部执行有没有完成任务?漏掉任何一层,评测都不完整。Skill A 的成功率是 90%,但如果触发率只有 60%,真实体验远比"有点差"糟糕。测试对象是rnd-technical-writer(技术博客写作 Skill),20 个 Trigger 测试用例 + 两个 Task 完成率任务 + 一组 A/B Prompt 对比,全部数据来自真实运行。评测框架设计Trigger 评测核心指标:Recall = TP / (TP + FN) ← 该触发的有没有被触发 Precision = TP / (TP + FP) ← 触发的里有多少是对的 F1 = 2 × Recall × Precision / (Recall + Precision)测试集构成(20 个用例):TP(真正例,应触发) ×8 ← 明确写文章、教程、深度解析 TN(真负例,不应触发) ×8 ← 知识问答、系列规划、代码帮助 EDGE(边界用例) ×4 ← 语义模糊、中英混合清晰的 TP/TN 用例谁都能答对,边界用例才能暴露 Skill 描述的歧义。自动化方式:把 Skill 描述 + 用户输入交给 LLM,让它预测是否触发,返回 JSON:TRIGGER_EVAL_PROMPT="""You are evaluating whether a user message would trigger a specific AI Skill. Skill specification: {skill_description} User message: "{user_input}" Answer in valid JSON only: { { "prediction": "trigger" or "no_trigger", "reasoning": "one sentence explanation" }}"""Task 完成率评测两级检查:Level 2(结构性):规则检查,不依赖 LLM → 字数是否达标 → 是否包含代码块 → 是否有 H2 章节标题 Level 3(质量,LLM-as-Judge):4 个维度各打 1-5 分 → 技术准确性(权重 35%) → 深度(权重 25%) → 清晰度(权重 20%) → 实用价值(权重 20%)Judge Prompt 模板:JUDGE_PROMPT="""You are an expert technical content reviewer. Evaluate the following AI-generated technical article. Scoring dimensions (1–5 each): 1. Technical accuracy 2. Depth 3. Clarity 4. Practical value Respond in valid JSON only: { "technical_accuracy": 1-5, "depth": 1-5, "clarity": 1-5, "practical_value": 1-5, "summary": "one sentence assessment