# Claude Code Skills 九型分类:从个人提示词到组织级 Agent 能力
Anthropic 内部数百个 skills 的实践表明:skill 不是 Markdown 提示词,而是可探索的能力包——验证类 skill 应优先于代码生成类。
Anthropic 在 2026 年 6 月总结 Claude Code 团队规模化使用 数百个 skills 的经验。关键判断不是「如何写更好的 Markdown」,而是:skills 是面向 agent 的组织知识、执行脚本、验证流程、上下文分发与治理机制的组合体。
一句话:Skills 是从「个人提示词技巧」走向「组织级 Agent Enablement」的关键中间层。
Skill 的本质:能力包,不是单文件说明
Claude Code 中,skill 是一个目录:
| 组成 | 作用 |
|---|---|
SKILL.md | 入口、触发条件、执行步骤 |
references/ | API 文档、内部约定、edge cases |
scripts/ | 验证器、数据抓取、生成器 |
assets/ | 模板、报告骨架 |
config.json | 团队/环境配置 |
| hooks | 按需启用的安全约束 |
设计重点不是「把说明写完整」,而是 按需暴露上下文——SKILL.md 做导航,细节通过文件系统 progressive disclosure 展开。
Anthropic 九型分类
| # | 类型 | 解决的问题 | AI4SE 含义 |
|---|---|---|---|
| 1 | Library & API reference | 内部库、CLI、SDK 用法与坑 | 沉淀资深工程师的隐性 API 知识 |
| 2 | Product verification | 如何验证代码真的工作 | 第一优先级;改善验收可信度 |
| 3 | Data fetching & analysis | 连接监控、分析栈 | Agent 从写代码进入「看事实」闭环 |
| 4 | Business process automation | standup、ticket、周报 | 团队流程一键化 |
| 5 | Code scaffolding | 按组织规范生成框架代码 | 自然语言条件 + 模板无法覆盖的脚手架 |
| 6 | Code quality & review | 组织级评审规则 | 评审标准前移到 agent 执行阶段 |
| 7 | CI/CD & deployment | 构建、发布、PR babysitting | 连接 Inner Loop 与 Outer Loop |
| 8 | Runbooks | 从症状出发多工具排障 | 运维经验结构化 |
| 9 | Infrastructure ops | 日常 infra 与高风险维护 | 配合 hooks 处理破坏性操作 |
最重要观察:验证类 skills 对输出质量的影响最可度量。 组织关心的不是「AI 写了多少代码」,而是代码是否跑通、状态是否一致、agent 能否用可重复方式证明自己完成了任务。
设计原则
Gotchas 是最高信号内容
不要写 Claude 已经知道的常识。高价值 skill 聚焦:
- 内部系统的特殊约定
- 容易犯错的字段、状态机、权限边界
- 需要特定工具/环境才能验证的流程
例如:某表 append-only 不能按 created_at 取最新;staging 200 不代表 webhook 真的处理成功。
Description 是触发器,不是摘要
Claude Code 启动时扫描 skill description 决定是否调用。应包含:明确触发词、适用任务类型、不适用边界、用户可能的自然语言表达。
给约束,也给弹性
避免 railroading:明确何时触发/不触发、成功标准、可选路径和 fallback,不要把某次任务的上下文写成永久规则。
On-demand hooks 适合高约束场景
生产环境阻止 DROP TABLE、force push;发布期间强制执行 smoke test——在特定工作流内临时提高安全边界,而非全局强约束。
分发与治理
| 方式 | 适用 | 优点 | 风险 |
|---|---|---|---|
./.claude/skills(repo 内) | 小团队、强项目绑定 | 上手快、与代码同版本 | 规模化后 context 噪音上升 |
| 内部 plugin marketplace | 多团队、多 repo | 按需安装、可治理 | 需要准入与生命周期管理 |
建议路径:先 repo 内试点,skill 数量与复用范围增长后再建 marketplace。
Anthropic 的轻量治理:sandbox → Slack 试用 → traction → PR 进 marketplace——有机发现,而非中心审批瓶颈。
Skills 在 AI4SE 中的位置
Skills 最适合落在 Middle Loop(评审、验证、协作、流程):
- 将团队工作方法转化为 agent 可执行步骤
- 将验证与 review 标准前置到开发过程
- 将 gotchas 从个人脑中迁移到组织资产
与 Harness Engineering 的关系:Harness 定义 Agent 运行环境的五维控制;Skills 是 Context 维度的可复用、可分发、可度量的具体实现。
试点优先级
不要先建「万能开发 skill」。建议顺序:
- 关键业务流程 verification skill
- 内部库/API reference skill
- Code review / testing practices skill
- CI/CD babysit 或 deployment skill
- Business process automation skill
Skill library 应由 真实失败驱动:收集 AI 失败样本 → 抽取重复 gotchas → 脚本化验证 → 小 skill 试点 → 观察触发率再扩展。
可度量指标
| 指标 | 含义 |
|---|---|
| Skill 触发次数 | 哪些流程已被 agent 化 |
| 验证 skill 使用占比 | 是否从「生成优先」转向「验证优先」 |
| Gotchas 增长数 | 组织知识是否持续沉淀 |
| Skill 相关返工率 | 是否实际减少 review/QA 返工 |
参考
- Thariq Shihipar, Lessons from building Claude Code: How we use skills, Anthropic, 2026-06-03