# AI4SE 时代的开发者生产力:为什么传统指标正在失效
用代码行数、Story Points、PR 数量来衡量 AI4SE 时代的开发者?这些指标不仅没用,还会鼓励错误行为。我们需要新框架。
旧指标的灾难
| 旧指标 | AI4SE 下为何失效 |
|---|---|
| 代码行数 | Agent 能生成大量代码 — 但不代表价值 |
| Story Points | Agent 改变了完成速度 — 相对估算失准 |
| PR 数量 | 鼓励拆小 PR 刷数量 — 无视 Review 负担 |
| Commit 频次 | Agent 自动化 Commit — 不再是人的主动性信号 |
SPACE 框架的 AI4SE 适配
| 维度 | AI4SE 应关注 |
|---|---|
| Satisfaction | 开发者对 Agent 协作的满意度 |
| Performance | 端到端效果(不是编码速度) |
| Activity | HITL 审查量 + 决策参与量 |
| Communication | Spec 质量 + Review 反馈频率 |
| Efficiency | 从 Spec 到合并的端到端流动效率 |
核心转向
从「产出多少」转向「验证多少」
- 不看 Agent 生成多少代码,看有多少通过了独立评审
- 不看 PR 多快合并,看合并后有多少回归
- 不看工具使用时长,看 Spec 到交付的闭环周期
参考
- SPACE Framework (Nicole Forsgren et al.)
- DevEx: Developer Experience Framework
- DORA 2025 AI Capabilities Model