[research@ai4se] : ~ $
cd ../
[methodology] | | 16 min

# AI4SE 端到端软件交付最佳实践

2025–2026 行业共识:AI 是放大器而非万能药——端到端成功依赖规格→上下文→执行→验证→度量的闭环,而非 IDE 内补全。

[e2e-delivery][methodology]

2025–2026 年,Anthropic、OpenAI、Cursor、Google(DORA)、Microsoft、GitHub 等机构对 AI 辅助软件工程形成了高度收敛的判断:

  1. AI 是放大器,不是万能药 — 组织既有交付能力决定 AI 价值上限
  2. 端到端成功依赖闭环 — 规格 → 上下文 → 执行 → 验证 → 度量
  3. Harness 与人机分工 — Planner / Generator / Evaluator 是长时程交付关键
  4. 组织 enablement 与工程实践必须同步 — 政策、Champion、平台与 Inner Loop 同等重要

AI 放大组织既有能力

DORA 2025 核心论断:

AI’s primary role in software development is that of an amplifier. It magnifies the strengths of high-performing organizations and the dysfunctions of struggling ones.

阶段组织基础弱组织基础强
需求/规格AI 放大需求歧义AI 辅助澄清与验收标准
开发更多难审查的代码小批量 + CR 提升吞吐
测试/发布缺陷与 MTTR 恶化流动效率与质量同步改善

详见 DORA 2025 AI 放大器

DORA AI Capabilities Model(七项放大器)

#能力E2E 含义
1Clear AI stance可用工具、边界、实验空间清晰传达
2Healthy data ecosystems内部数据质量、一致性、可发现性
3AI-accessible internal dataContext Engineering 基础
4Strong version control应对 AI 带来的变更量与 PR 体积
5Working in small batches抵消 AI 一次生成大段代码的风险
6User-centric focus加速仍对齐业务价值
7Quality internal platforms个人效率转化为组织流动效率

AI 易增大 PR 体积,小批量是 safeguard。

先 Plan,再 Code

Cursor 官方将 E2E feature 交付归纳为:

  1. Plan Mode — 研究代码库、澄清需求、产出可编辑计划
  2. 可独立验证的小步 — 每步 agent 可自行确认完成
  3. 计划失败则回退 — revert + 改计划,而非在错误方向连续 patch
  4. TDD 五步法 — 写测试 → 确认失败 → 实现 → 通过 → commit
  5. 可验证目标 — 类型系统、Linter、测试

The biggest risk when building features quickly is skipping verification.

结构化规格与验收标准是跨 BA → DEV → QA 的接口。见 SDD 真相源

Context Engineering

Anthropic 将 context 定义为有限注意力预算下的高信号 token 集合

组件原则
System prompt最小充分,分节清晰
Tools少而精;避免 bloated tool set
Rules / CLAUDE.md项目约定、命令
JIT 检索轻量引用 + 运行时拉取,非预灌全库

长时程任务三机制:CompactionStructured note-taking(PROGRESS.md)、Sub-agent(返回摘要给主 agent)。

BA 的需求包、DEV 的 Context Pack、QA 的验收意图,应设计为可引用、可版本化、可增量加载 — 对应 Middle Loop Harness。

Harness 与 P/G/E 三角色

角色职责E2E 对应
Planner短 prompt → 产品 specBA + 架构概要
Generator按 spec 小步实现DEV Inner/Middle Loop
Evaluator独立验证;硬阈值 pass/failQA + 自动化

关键洞察:

Separating the agent doing the work from the agent judging it.

Evaluator 应使用运行时测试(Playwright、pytest),而非仅 LLM 自评。Sprint contract:编码前对齐「何为 done」。见 Planner-Generator-EvaluatorHITL/HOTL/HOOL 光谱

多层验证栈

层级机制
L1 本地单元测试、类型检查、Linter
L2 任务Sprint contract / 验收标准
L3 运行时Playwright、集成测试
L4 流程PR Agent Review
L5 组织Contextual Evals、golden set
L6 持续CI/CD 门禁、SAST

OpenAI Evals 三阶段:Specify → Measure → Improve。不要 hope for “great” — specify it, measure it, improve toward it.

端到端参考架构

ORGANIZATION LAYER
  AI stance · Enablement · DORA 7 caps

MIDDLE LOOP — Spec & Harness
  Planner/spec · Context packs · Review · Permissions

   BA/PM    DEV (Gen+CR)    QA (Eval)

OUTER LOOP — Delivery System
  Git PR · CI/CD · Platform · Metrics · Feedback → Eval

最简单方案优先

Anthropic《Building Effective Agents》:

Find the simplest solution possible, and only increase complexity when needed.

复杂度模式适用
增强 LLM(检索 + 工具)单步分类、生成
Workflow(链式、路由、并行)可分解固定子任务
Agent(动态工具循环)开放-ended、步数不可预测

优先 Workflow + 人审,再视 Eval 证据升级 Agent 自治。

组织采纳是变革管理

GitHub AI Playbook:

Companies fail at AI adoption because they treat it like installing software when it’s actually rewiring how people work.

八柱 enablement:Executive support、Policies、AI Advocates、Communities、L&D、DRI、Right-fit tooling、Metrics。许可证 ≠ 规模化价值。

关键 Cautions

主题观点
Agent 复杂度随模型变强,部分脚手架可能 obsolete
PR 体积AI 可能增大 PR → 与小批量、CR 冲突
个人 vs 组织效能individual effectiveness ↑ ≠ organizational performance ↑
工具数量more tools ≠ better

参考