Skill 系列（01）：Skill 评测体系——如何量化一个 AI Skill 的质量

发布时间：2026/6/22 15:12:29

Skill 评测的两层问题普通软件测试只有一层：代码跑对了吗？Skill 有两层：层 1 — Trigger 层：LLM 有没有判断"这句话需要调用这个 Skill"？层 2 — Execution 层：Skill 内部执行有没有完成任务？漏掉任何一层，评测都不完整。Skill A 的成功率是 90%，但如果触发率只有 60%，真实体验远比"有点差"糟糕。测试对象是rnd-technical-writer（技术博客写作 Skill），20 个 Trigger 测试用例 + 两个 Task 完成率任务 + 一组 A/B Prompt 对比，全部数据来自真实运行。评测框架设计Trigger 评测核心指标：Recall = TP / (TP + FN) ← 该触发的有没有被触发 Precision = TP / (TP + FP) ← 触发的里有多少是对的 F1 = 2 × Recall × Precision / (Recall + Precision)测试集构成（20 个用例）：TP（真正例，应触发） ×8 ← 明确写文章、教程、深度解析 TN（真负例，不应触发） ×8 ← 知识问答、系列规划、代码帮助 EDGE（边界用例） ×4 ← 语义模糊、中英混合清晰的 TP/TN 用例谁都能答对，边界用例才能暴露 Skill 描述的歧义。自动化方式：把 Skill 描述 + 用户输入交给 LLM，让它预测是否触发，返回 JSON：TRIGGER_EVAL_PROMPT="""You are evaluating whether a user message would trigger a specific AI Skill. Skill specification: {skill_description} User message: "{user_input}" Answer in valid JSON only: { { "prediction": "trigger" or "no_trigger", "reasoning": "one sentence explanation" }}"""Task 完成率评测两级检查：Level 2（结构性）：规则检查，不依赖 LLM → 字数是否达标 → 是否包含代码块 → 是否有 H2 章节标题 Level 3（质量，LLM-as-Judge）：4 个维度各打 1-5 分 → 技术准确性（权重 35%） → 深度（权重 25%） → 清晰度（权重 20%） → 实用价值（权重 20%）Judge Prompt 模板：JUDGE_PROMPT="""You are an expert technical content reviewer. Evaluate the following AI-generated technical article. Scoring dimensions (1–5 each): 1. Technical accuracy 2. Depth 3. Clarity 4. Practical value Respond in valid JSON only: { "technical_accuracy": 1-5, "depth": 1-5, "clarity": 1-5, "practical_value": 1-5, "summary": "one sentence assessment

相关新闻