# AI Development Workflows 全景:从五步骨架到企业交付闭环
主流 AI 开发工作流收敛于 Research→Plan→Execute→Review→Ship——成熟实践是规格有来源、执行有纪律、评审有独立性、发布有门禁。
Claude Code、Codex CLI、Gemini CLI 三个 best-practice 生态在 Development Workflows 上出现高度收敛:主流 AI 开发工作流都在向同一骨架靠拢:
Research → Plan → Execute → Review → Ship
意义不是机械执行五步,而是把 AI 开发从「单次 prompt 写代码」升级为可追踪、可验证、可审计的交付闭环。
三层循环组合
| 层级 | 核心问题 | 关键实践 |
|---|---|---|
| Middle Loop | AI 该做什么、看什么、遵守什么边界? | OpenSpec/Spec Kit、Context Pack、Plan Mode、权限与 hooks |
| Inner Loop | AI 如何小步、可靠地改代码? | TDD、worktree、subagent、systematic debugging |
| Outer Loop | AI 代码如何进入组织交付系统? | PR、CI/CD、SAST、E2E、DORA 度量 |
参见 Inner / Middle / Outer Loop 与 Loop Engineering。
五步骨架详解
| 阶段 | 本质问题 | 常见产物 |
|---|---|---|
| Research | 系统是什么?需求与约束? | 代码库调查、Context Pack、风险扫描 |
| Plan | 怎么做?怎样证明做完? | 计划、验收标准、测试策略 |
| Execute | 如何小步实现并控制漂移? | 小 PR、TDD、worktree、phase handoff |
| Review | 结果是否正确、安全、可维护? | code review、QA 报告、独立 evaluator |
| Ship | 如何进入交付系统并回流经验? | PR、CI/CD、changelog、retro、metrics |
Workflow 最小单位正从 prompt 模板升级为流程资产 — 有入口、状态、产物、检查点、退出条件。Superpowers 封装 TDD/review skills;OpenSpec/Spec Kit 版本化 spec artifacts;gstack 显式化专家 gears;GSD 用 fresh-context subagents 抗 context rot。
企业参考模型:0+6 阶段
0. Policy & Routing → 工具 tier、数据边界、human gate
1. Research & Spec → 意图、约束、验收标准
2. Plan & Contract → 任务拆分、done、风险、rollback
3. Execute in Batches → TDD、worktree、小 PR
4. Independent Review → CR、运行时测试、QA、安全
5. Ship → PR、CI/CD、监控、回滚
6. Archive & Improve → sync specs、更新 skills、度量
本体分类:先问「它是什么」
直接按五步阶段分类会混淆 OpenSpec、GSD、gstack 等横跨多阶段的项目。应按 primary ontology 归类:
| 本体类别 | 判定 | 代表项目 |
|---|---|---|
| Workflow Method Framework | 定义完整方法、阶段、产物、门禁 | Spec Kit, OpenSpec, BMAD, GSD, Superpowers, gstack, HumanLayer |
| Workflow Capability / Skill Collection | 可复用 building blocks,不强制唯一 E2E 方法 | Matt Pocock Skills, agent-skills |
| Runtime Harness Pack | 增强特定 runtime 的配置与编排 | ECC, oh-my-claudecode, oh-my-codex |
边界: Claude Code、Codex、Cursor 是 Agent Runtime,不是 workflow 方法;MCP、GitHub Actions、Playwright 是 基础设施,支撑但不规定完整方法。
主流 Workflow 项目速览
| 项目 | Workflow 概要 | 本体 |
|---|---|---|
| Superpowers | brainstorming → plans → TDD → review → verification | 工程纪律型框架 |
| Spec Kit | constitution → specify → plan → tasks → implement | SDD 标准型 |
| OpenSpec | propose → apply → verify → archive | Brownfield 变更型 |
| GSD | discuss → plan → execute → verify → ship | 执行编排 + context 工程 |
| gstack | plan reviews → qa → ship → retro | 专家角色型 |
| BMAD | PM/Architect/Dev/UX/QA 多角色敏捷 | 角色分工型 |
完整 SDD 对比见 SDD 工具横向对比。
选型五问
| 问题 | 若答案是「是」 | 优先考虑 |
|---|---|---|
| 需求/验收边界不清? | 先结构化意图 | Spec Kit / OpenSpec / BMAD |
| Agent 经常跑偏、跳测试? | 强化执行纪律 | Superpowers / GSD |
| 缺少产品/设计/QA 视角挑战? | 显式专家审查 | gstack / BMAD |
| 已选定 runtime? | 适配原生命令/hooks | ECC / AGENTS.md / CLAUDE.md |
| 必须进入企业发布链? | 接入 CI/CD 与度量 | Actions / Playwright / DORA |
常见场景组合
| 场景 | 推荐组合 |
|---|---|
| 低风险小修 | Runtime plan + targeted verification |
| Brownfield feature | OpenSpec/Spec Kit + Superpowers TDD + CI gate |
| UI / full-stack | Spec + design review + Playwright evidence |
| 长时程迁移 | GSD phase graph + worktree + batched PRs |
| 高风险变更 | Spec + human gate + security review + rollback plan |
工具链分层实践见 OpenSpec + Superpowers + gstack 与 GStack + GSD + Superpowers。
子循环才是难点
AI 开发风险通常不在 happy path,而在子循环:
- 测试失败 → 系统化调试还是猜修?
- Review 发现问题 → 回 plan 还是堆 patch?
- CI 失败 → 能否定位、修复、保留证据?
流程设计必须定义:哪些步骤可重复、停止条件是什么、何时升级给人。
Runtime 原语决定上限
| Runtime | 编排能力 | 含义 |
|---|---|---|
| Claude Code | Command → Agent → Skill 较完整 | 复杂 playbook、专家审查 |
| Codex CLI | Agent → Skill + slash controls | 实现 worker;用 AGENTS.md/CI 补编排 |
| Gemini CLI | Command → Agent → Skill;大 context | 大上下文研究、TOML commands |
方法论不应绑定单一工具,但落地时必须知道每个 runtime 能原生承载什么。
关键原则
- Spec as Source of Truth — 需求与行为变化必须可版本化,不能只在聊天记录里
- Context Pack — 可引用、可增量加载,而非一次性灌入全库
- Planner / Generator / Evaluator 分离 — Generator 自评过度乐观;独立 Evaluator 更可靠
- 不绕过 Outer Loop — AI 代码仍走 PR、CI/CD、度量
参考
- Superpowers: https://github.com/obra/superpowers
- GitHub Spec Kit: https://github.com/github/spec-kit
- OpenSpec: https://github.com/Fission-AI/OpenSpec