[research@ai4se] : ~ $
cd ../
[tools] | | 14 min

# Claude Code Skills 九型分类:从个人提示词到组织级 Agent 能力

Anthropic 内部数百个 skills 的实践表明:skill 不是 Markdown 提示词,而是可探索的能力包——验证类 skill 应优先于代码生成类。

[claude-code][skills][tools]

Anthropic 在 2026 年 6 月总结 Claude Code 团队规模化使用 数百个 skills 的经验。关键判断不是「如何写更好的 Markdown」,而是:skills 是面向 agent 的组织知识、执行脚本、验证流程、上下文分发与治理机制的组合体

一句话:Skills 是从「个人提示词技巧」走向「组织级 Agent Enablement」的关键中间层。

Skill 的本质:能力包,不是单文件说明

Claude Code 中,skill 是一个目录:

组成作用
SKILL.md入口、触发条件、执行步骤
references/API 文档、内部约定、edge cases
scripts/验证器、数据抓取、生成器
assets/模板、报告骨架
config.json团队/环境配置
hooks按需启用的安全约束

设计重点不是「把说明写完整」,而是 按需暴露上下文——SKILL.md 做导航,细节通过文件系统 progressive disclosure 展开。

Anthropic 九型分类

#类型解决的问题AI4SE 含义
1Library & API reference内部库、CLI、SDK 用法与坑沉淀资深工程师的隐性 API 知识
2Product verification如何验证代码真的工作第一优先级;改善验收可信度
3Data fetching & analysis连接监控、分析栈Agent 从写代码进入「看事实」闭环
4Business process automationstandup、ticket、周报团队流程一键化
5Code scaffolding按组织规范生成框架代码自然语言条件 + 模板无法覆盖的脚手架
6Code quality & review组织级评审规则评审标准前移到 agent 执行阶段
7CI/CD & deployment构建、发布、PR babysitting连接 Inner Loop 与 Outer Loop
8Runbooks从症状出发多工具排障运维经验结构化
9Infrastructure ops日常 infra 与高风险维护配合 hooks 处理破坏性操作

最重要观察:验证类 skills 对输出质量的影响最可度量。 组织关心的不是「AI 写了多少代码」,而是代码是否跑通、状态是否一致、agent 能否用可重复方式证明自己完成了任务。

设计原则

Gotchas 是最高信号内容

不要写 Claude 已经知道的常识。高价值 skill 聚焦:

  • 内部系统的特殊约定
  • 容易犯错的字段、状态机、权限边界
  • 需要特定工具/环境才能验证的流程

例如:某表 append-only 不能按 created_at 取最新;staging 200 不代表 webhook 真的处理成功。

Description 是触发器,不是摘要

Claude Code 启动时扫描 skill description 决定是否调用。应包含:明确触发词、适用任务类型、不适用边界、用户可能的自然语言表达。

给约束,也给弹性

避免 railroading:明确何时触发/不触发、成功标准、可选路径和 fallback,不要把某次任务的上下文写成永久规则。

On-demand hooks 适合高约束场景

生产环境阻止 DROP TABLE、force push;发布期间强制执行 smoke test——在特定工作流内临时提高安全边界,而非全局强约束。

分发与治理

方式适用优点风险
./.claude/skills(repo 内)小团队、强项目绑定上手快、与代码同版本规模化后 context 噪音上升
内部 plugin marketplace多团队、多 repo按需安装、可治理需要准入与生命周期管理

建议路径:先 repo 内试点,skill 数量与复用范围增长后再建 marketplace。

Anthropic 的轻量治理:sandbox → Slack 试用 → traction → PR 进 marketplace——有机发现,而非中心审批瓶颈。

Skills 在 AI4SE 中的位置

Skills 最适合落在 Middle Loop(评审、验证、协作、流程):

  • 将团队工作方法转化为 agent 可执行步骤
  • 将验证与 review 标准前置到开发过程
  • 将 gotchas 从个人脑中迁移到组织资产

Harness Engineering 的关系:Harness 定义 Agent 运行环境的五维控制;Skills 是 Context 维度的可复用、可分发、可度量的具体实现。

试点优先级

不要先建「万能开发 skill」。建议顺序:

  1. 关键业务流程 verification skill
  2. 内部库/API reference skill
  3. Code review / testing practices skill
  4. CI/CD babysit 或 deployment skill
  5. Business process automation skill

Skill library 应由 真实失败驱动:收集 AI 失败样本 → 抽取重复 gotchas → 脚本化验证 → 小 skill 试点 → 观察触发率再扩展。

可度量指标

指标含义
Skill 触发次数哪些流程已被 agent 化
验证 skill 使用占比是否从「生成优先」转向「验证优先」
Gotchas 增长数组织知识是否持续沉淀
Skill 相关返工率是否实际减少 review/QA 返工

参考