[measurement] | 2026-06-02 | 11 min

# AI4SE 时代的开发者生产力：为什么传统指标正在失效

用代码行数、Story Points、PR 数量来衡量 AI4SE 时代的开发者？这些指标不仅没用，还会鼓励错误行为。我们需要新框架。

[dev-productivity][measurement]

旧指标的灾难

旧指标	AI4SE 下为何失效
代码行数	Agent 能生成大量代码 — 但不代表价值
Story Points	Agent 改变了完成速度 — 相对估算失准
PR 数量	鼓励拆小 PR 刷数量 — 无视 Review 负担
Commit 频次	Agent 自动化 Commit — 不再是人的主动性信号

SPACE 框架的 AI4SE 适配

维度	AI4SE 应关注
Satisfaction	开发者对 Agent 协作的满意度
Performance	端到端效果（不是编码速度）
Activity	HITL 审查量 + 决策参与量
Communication	Spec 质量 + Review 反馈频率
Efficiency	从 Spec 到合并的端到端流动效率

核心转向

从「产出多少」转向「验证多少」

不看 Agent 生成多少代码，看有多少通过了独立评审
不看 PR 多快合并，看合并后有多少回归
不看工具使用时长，看 Spec 到交付的闭环周期

参考

SPACE Framework (Nicole Forsgren et al.)
DevEx: Developer Experience Framework
DORA 2025 AI Capabilities Model