# Loop Engineering:从写 Prompt 到设计可托管的工作闭环
Loop Engineering 把人类反复驱动 AI 的动作工程化为可重复、可验证、可治理的闭环——设计单位不是句子,而是 loop 契约。
Loop Engineering 的核心不是「写更好的提示词」,而是把人类反复驱动 AI 的动作,设计成可重复、可恢复、可验证、可治理的闭环。
四层工程的重心迁移
| 层级 | 关注点 | 典型产物 |
|---|---|---|
| Prompt Engineering | 单次模型响应 | prompt、system message |
| Context Engineering | 注意力预算 | rules、skills、检索 |
| Harness Engineering | Agent 执行环境 | sandbox、hooks、权限 |
| Loop Engineering | 跨轮次工作闭环 | trigger、verifier、handoff、eval |
一句话:Loop Engineering 把 Agent 从「交互对象」变成「可托管工作流单元」。
Loop 契约:八个必答问题
设计一个 loop,至少要定义:
- Trigger — 什么事件启动:定时、issue 变化、CI 失败、PR 评论?
- Workspace — 在哪个隔离环境:worktree、容器、远程沙箱?
- Context — 哪些默认注入,哪些按需检索?
- Executor — 谁执行:主 Agent、subagent、脚本?
- Verifier — 停止条件:测试、lint、独立 evaluator?
- State — 留下什么状态供下一轮使用?
- Budget — token、时间、重试上限?
- Handoff — 何时升级给人类?
发现任务 → 分配环境 → 注入上下文 → Agent 执行
→ 独立验证 → 记录状态 → 人类审查/升级 → 下一轮
Loop 与 Prompt 的本质差异
Prompt 优化一轮对话:指令是否清楚、格式是否稳定。
Loop 优化一类持续发生的工作:
- 哪些工作值得循环化?
- 每次执行是否在隔离环境中?
- 结果能否被程序化或半程序化验证?
- 人类在哪个节点介入最有杠杆?
Loop 设计得差,会把错误、漂移、成本和权限风险自动放大。
人类在 loop 中的四个高杠杆节点
Loop Engineering 不是追求无人参与,而是让人类移到高杠杆位置:
| 节点 | 作用 |
|---|---|
| 设计 loop | 定义契约、权限、验证器 |
| 审查异常 | 处理 verifier 无法自动裁决的情况 |
| 改进 verifier | 把重复人工判断沉淀为传感器 |
| 治理与度量 | 跟踪 completion rate、干预率、成本 |
与 Inner / Middle / Outer Loop 的关系
- Inner Loop:人在 IDE 里与 Agent 结对(单次会话内的 loop)
- Middle Loop:PR、review、CI 修复(跨会话的 loop)
- Outer Loop:发布、度量、组织学习
Loop Engineering 提供跨三层通用的契约语言;参见 Inner / Middle / Outer Loop 与 Harness Engineering。
试点指标
引入 loop 时建议跟踪:
- Completion rate — 无需人类介入即 verifier 通过的比例
- Human intervention rate — 需要升级的比例
- Cost per completed task — 含重试与 review 的全成本
- Time to verified output — 从 trigger 到 verifier 通过
五个常见反模式
- 无 verifier 的 loop — 只有生成,没有可验证停止条件
- 共享 workspace 并行 — 多 loop 互相污染
- Prompt 冒充 loop — 用长 prompt 替代 trigger/state/handoff 设计
- Verifier 过弱 — lint 通过即视为完成
- 无升级路径 — Agent 卡住时只能人工 kill
参考
- Addy Osmani, Loop Engineering (2026)
- OpenAI Codex: Automations, Goals, Worktrees, Skills
- Anthropic Claude Code: scheduled tasks, subagents, hooks