[research@ai4se] : ~ $
cd ../
[methodology] | | 16 min

# Agentic Coding Agent 核心概念:Model 之外是 Harness

Coding Agent 不是更会写代码的 chatbot——可靠性来自 Instructions、Tools、Memory、Permissions 与 Verification Loop 组成的 Harness。

[agentic-engineering][methodology]

Agentic Coding Agent 不是「更会写代码的 chatbot」,而是能在受控工程环境中读取上下文、调用工具、修改文件、运行验证、接收反馈并继续迭代的软件工程参与者。

成熟用法的方向很明确:从 vibe coding 进入 agentic engineering——为 agent 设计稳定的指令、工具、权限、上下文和验证闭环。

定义

Agentic Coding Agent = Model + Instructions + Tools + Memory/Context + Permissions + Workflow Loop

模型只是能力来源;可靠性主要来自外围 Harness。一句话:模型给出可能性,Harness 给出可靠性。 详见 Harness Engineering

三 CLI 的共同抽象

Claude Code、Codex CLI、Gemini CLI 产品不同,抽象层高度一致:

概念层Claude CodeCodex CLIGemini CLI
持久指令CLAUDE.md.claude/rules/AGENTS.mdGEMINI.md
会话命令.claude/commands/*.md内置 /plan/review.gemini/commands/*.toml
技能.claude/skills/.agents/skills/.gemini/skills/
子代理.claude/agents/.codex/agents/.gemini/agents/
外部工具.mcp.jsonconfig.toml MCPmcpServers
安全边界permissions、sandbox、hookssandbox、rules、hooksallowlists、checkpointing

编排模式:Claude/Gemini 强调 Command → Agent → Skill;Codex 当前更偏 Agent → Skill + slash/session controls

十个核心概念

1. Agent vs Chatbot

Chatbot 生成回答;agent 调用工具并根据观察继续行动。人的角色从「逐行写代码」转为「设定目标、设计边界、审查证据、承担责任」。

2. Persistent Instructions

CLAUDE.md / AGENTS.md / GEMINI.md 把项目规范加载进每次会话。

适合放入:repo 结构、build/test 命令、架构约定、done definition。
不适合:过长散文、一次性任务、复杂流程细节(应拆进 skills/docs)。

3. Commands — 稳定工作流入口

命令不是魔法咒语,而是把高频工作流变成入口、参数和约束。Codex 的 /plan/review/permissions 是会话控制;Claude/Gemini 的自定义命令更像 prompt template。

4. Skills — 可复用程序性知识包

Progressive disclosure:会话开始时只暴露名称和描述;任务匹配时才读取完整 SKILL.md
Commands 触发工作流,Skills 承载可复用做法。Claude Code Skills 九型

5. Subagents — 上下文分仓

子代理把 noisy intermediate output 移出主会话,减少 context pollution。适合 read-heavy、可并行、可汇总任务;写操作并行需谨慎。

子代理不是「更多 AI」,而是上下文分仓和职责分离。

6. MCP — 外部工具总线

按任务给 agent 正确工具:文档查询、Web UI 调试、GitHub/Linear 工作流。不是「接越多 MCP 越好」。见 MCP 协议

7. Config — 确定性控制面

稳定行为放进配置,而非反复在 prompt 里提醒:模型、sandbox、approval、MCP、hooks。Prompt 是请求,config 是边界。

8. Safety Boundary

Sandbox、approval policy、tool allowlist、hooks、checkpointing。权限不是阻碍效率,而是让效率可被信任。

9. Memory vs Instructions vs Context

层次用途风险
当前上下文当前任务、文件、错误会膨胀、污染
持久指令项目/团队规则太长稀释注意力
记忆用户偏好、习惯不应替代 checked-in rules
外部知识文档、代码库事实可能变更,需动态验证

10. Verification Loop

Research → Plan → Execute → Review → Ship

Agent 的交付物不是代码,而是带证据的变更:测试输出、diff review、截图、复现记录。

四层扩展能力

回答的问题代表
Governance能做什么、何时检查Settings、Rules、Hooks、Permissions
Extension如何打包分发Plugins、Extensions、Marketplace
Orchestration多步骤如何组织Workflows、Commands、Agent Teams
Observability如何恢复与审计Sessions、Checkpointing、Telemetry

责任架构

                 Human intent and accountability
                              |
                              v
  +----------------------------------------------------------+
  | Agentic Coding Agent Harness                            |
  |  Instructions + Tools/MCP + Memory + Permissions        |
  |              Research -> Plan -> Execute -> Review       |
  +----------------------------------------------------------+
                              |
                              v
                 Evidence: tests, diff, logs, screenshots

典型反模式

  • Mega instruction file 稀释规则
  • 子代理拥有全部 shell/MCP/写权限
  • Prompt-only governance,无 sandbox/hooks
  • 无基线测试就改代码
  • Context hoarding 不清理长会话
  • Agent 说「完成」但无证据
  • 未审查 PR 直接交给同事

参考