[research@ai4se] : ~ $
cd ../
[process] | | 12 min

# Loop Engineering:从写 Prompt 到设计可托管的工作闭环

Loop Engineering 把人类反复驱动 AI 的动作工程化为可重复、可验证、可治理的闭环——设计单位不是句子,而是 loop 契约。

[loop-engineering][workflow-design][process]

Loop Engineering 的核心不是「写更好的提示词」,而是把人类反复驱动 AI 的动作,设计成可重复、可恢复、可验证、可治理的闭环。

四层工程的重心迁移

层级关注点典型产物
Prompt Engineering单次模型响应prompt、system message
Context Engineering注意力预算rules、skills、检索
Harness EngineeringAgent 执行环境sandbox、hooks、权限
Loop Engineering跨轮次工作闭环trigger、verifier、handoff、eval

一句话:Loop Engineering 把 Agent 从「交互对象」变成「可托管工作流单元」。

Loop 契约:八个必答问题

设计一个 loop,至少要定义:

  1. Trigger — 什么事件启动:定时、issue 变化、CI 失败、PR 评论?
  2. Workspace — 在哪个隔离环境:worktree、容器、远程沙箱?
  3. Context — 哪些默认注入,哪些按需检索?
  4. Executor — 谁执行:主 Agent、subagent、脚本?
  5. Verifier — 停止条件:测试、lint、独立 evaluator?
  6. State — 留下什么状态供下一轮使用?
  7. Budget — token、时间、重试上限?
  8. Handoff — 何时升级给人类?
发现任务 → 分配环境 → 注入上下文 → Agent 执行
        → 独立验证 → 记录状态 → 人类审查/升级 → 下一轮

Loop 与 Prompt 的本质差异

Prompt 优化一轮对话:指令是否清楚、格式是否稳定。

Loop 优化一类持续发生的工作

  • 哪些工作值得循环化?
  • 每次执行是否在隔离环境中?
  • 结果能否被程序化或半程序化验证?
  • 人类在哪个节点介入最有杠杆?

Loop 设计得差,会把错误、漂移、成本和权限风险自动放大

人类在 loop 中的四个高杠杆节点

Loop Engineering 不是追求无人参与,而是让人类移到高杠杆位置:

节点作用
设计 loop定义契约、权限、验证器
审查异常处理 verifier 无法自动裁决的情况
改进 verifier把重复人工判断沉淀为传感器
治理与度量跟踪 completion rate、干预率、成本

与 Inner / Middle / Outer Loop 的关系

  • Inner Loop:人在 IDE 里与 Agent 结对(单次会话内的 loop)
  • Middle Loop:PR、review、CI 修复(跨会话的 loop)
  • Outer Loop:发布、度量、组织学习

Loop Engineering 提供跨三层通用的契约语言;参见 Inner / Middle / Outer LoopHarness Engineering

试点指标

引入 loop 时建议跟踪:

  • Completion rate — 无需人类介入即 verifier 通过的比例
  • Human intervention rate — 需要升级的比例
  • Cost per completed task — 含重试与 review 的全成本
  • Time to verified output — 从 trigger 到 verifier 通过

五个常见反模式

  1. 无 verifier 的 loop — 只有生成,没有可验证停止条件
  2. 共享 workspace 并行 — 多 loop 互相污染
  3. Prompt 冒充 loop — 用长 prompt 替代 trigger/state/handoff 设计
  4. Verifier 过弱 — lint 通过即视为完成
  5. 无升级路径 — Agent 卡住时只能人工 kill

参考

  • Addy Osmani, Loop Engineering (2026)
  • OpenAI Codex: Automations, Goals, Worktrees, Skills
  • Anthropic Claude Code: scheduled tasks, subagents, hooks