收藏 | 拆解Loop Engineering：Agent如何跑完一件事（小白程序员进阶指南）

📅 2026/7/2 12:40:53 👁️ 次浏览

Loop Engineering是AI coding圈的热门话题本文探讨了如何让Agent完成复杂任务。作者通过实践Claude Code和Codex总结了Loop Engineering的核心是让Agent知道何时继续、验证和停止。文章对比了Claude Code /goal和Codex /goal的差异并提出了四种实现Loop的方式Goal模式、Workflow模式、自定义Command/Hook和外部状态文件多Agent。最后作者给出了选型建议和常见踩坑点建议从简单闭环开始逐步进阶。我把 Loop Engineering 拆了一遍Agent 到底怎么跑完一件事这一篇聊一下最近 AI coding 圈很火的一个词Loop Engineering。当 Agent 不只是回答问题而是真的开始干活以后怎么让它把一件事跑完这段时间我用 Claude Code 和 Codex 跑了不少自动化任务。最爽的时候是看着 Agent 自己改代码、跑测试、修 bug一轮一轮往前推。最崩溃的时候是早上醒来发现它还在跑或者它自信满满地说完成了结果一看关键问题根本没修。所以我现在越来越觉得很多人讨论 loop engineering容易把重点放错Loop 不是让 Agent 一直干活而是让它知道怎么继续、怎么验证、什么时候该停。网上关于这个词的信息也挺散有人把它当 prompt engineering 的下一站有人把它讲成 agent workflow有人直接拿 Claude Code /goal、Codex /goal、Dynamic Workflows 来对比。这个词的来龙去脉大概可以分成三步看。第一步是 prompt engineering。早期我们和 AI 协作重点是把一句 prompt 写清楚给背景、给格式、给例子、给约束。那时候 AI 更像一个强一点的问答工具人负责一轮一轮地追问和纠偏。第二步是 agentic coding。 Claude Code、Codex、Cursor 这类工具起来之后AI 不只是回答问题而是开始读文件、改代码、跑命令、看报错。人的工作从写代码变成了指挥一个会写代码的系统。第三步才是 loop engineering。 2026 年 6 月Addy Osmani 写了一篇《Loop Engineering》把这个趋势讲得比较系统loop 不只是一次 prompt而是一个会发现任务、分配任务、验证结果、记录状态、决定下一步的小系统。Business Insider 后来也专门写了一篇文章把它概括成从 prompt engineering 转向 loop engineering并提到 Peter Steinberger、Boris Cherny 等人在讨论这个方向。所以我更愿意把 Loop Engineering 理解成Agent 时代的工作流设计。它不是某个工具的新功能也不是一个已经完全定型的学术概念而是一套正在形成的实践当 AI 可以连续执行任务以后人类要设计的不再只是 prompt而是目标、状态、验证和停止条件。但真正落到实操其实就三个问题目标怎么写状态放哪里谁来判断它真的完成了这一篇我把 Loop Engineering 按实战拆开讲先讲底层逻辑再对比 Claude Code /goal 和 Codex /goal最后给四种能落地的方案选型。三句话速览Loop 的核心不是无限执行而是观察、规划、执行、验证、停止这一整套闭环。工具差异Claude Code /goal 更像验证优先的裁判条件Codex /goal 更像长任务优先的目标锚点。落地选型简单任务用 goal周期任务用 workflow团队规范用 command/hook生产级任务用外部状态文件多 agent。一、Loop 到底是什么从 prompt 到 loop变化在哪如果说 prompt engineering 解决的是这一次怎么问那 loop engineering 解决的就是一件事怎么被持续推进到完成。这两者的差别很大。Prompt 是一次性的。你给一段上下文模型给一次回答。回答好不好主要看 prompt 写得清不清楚。Loop 是过程性的。Agent 会经历多轮动作观察当前状态、制定计划、执行修改、检查结果、根据反馈继续下一步。每一轮的输出都会影响下一轮的输入。所以loop 工程真正关心的不是某一句 prompt而是整个循环有没有收敛观察 → 规划 → 执行 → 验证 → 决定继续或停止这里最容易被误解的一点是loop 不是无限执行。肯定有人会问loop engineering 不就是让 agent 自动多跑几轮吗确实是但只说对了一半。真正的 loop 工程不是一直跑而是跑到能证明自己对或者证明自己需要停下来为止。最核心的环节是验证。没有验证前面的观察、规划、执行都没法收敛。Agent 很容易陷入两种极端一种是永远觉得自己没干完你让它优化代码它永远能再找点细节改。改命名、调注释、重构变量循环到天亮。一种是太早觉得自己干完了测试明明没覆盖边界条件它一看绿了就说任务完成结果上线就炸。Loop 的第一性原理不是自动化而是终止条件必须可验证、可量化、可判定。验证条件怎么写那什么样的终止条件才算好我觉得至少分三层结果验证比如测试全部通过、产物文件存在。风险是测试可能测错了东西。行为验证比如 API 返回正确、页面能打开。风险是没覆盖异常路径。人工验证关键改动必须人确认。风险是失去自动化的意义。实际落地时通常是三层叠加。完全无人值守目前还不现实但我们可以尽量把前两层做扎实。不过写得出验证条件不等于跑得起验证闭环。谁来在每一轮之后判断「到底达没达成」、没达成就自动再来一轮这件事现成工具已经帮我们做了一半。眼下最直接的两个入口就是 Claude Code 和 Codex 的 /goal —— 但同样叫 /goal这两个的思路并不一样。二、Claude Code /goal VS Codex /goal两个工具的使用体感不一样Claude Code 和 Codex 都在往目标驱动这个方向走但我不太建议把它们理解成同一种东西。我的体感是Claude Code /goal 更适合做明确条件下的验证闭环Codex /goal 更适合给长任务挂一个持续目标再慢慢推进。这个差异不一定来自某个单一功能而是两个工具整体工作方式不同Claude Code /goal 更像一个裁判条件你给它一个目标它会在每轮之后判断目标是否满足。它的重点是这件事到底达没达成。Codex /goal 更像一个任务锚点你给它一个较长周期的目标它会把这个目标挂在当前任务里。中间可以查看状态、继续推进更适合需要持续跟进的工作。Claude 更适合拿来做验证闭环尤其是目标能一句话说清楚的时候比如所有测试通过且 lint 无报错。Codex 更适合拿来做长任务推进比如批量补测试、迁移代码、持续跟一个 issue。它不一定天然更正确但更适合把任务挂住不容易因为一次上下文中断就散掉。多 agent 不要简单按工具划线Claude Code 和 Codex 都在往 subagent、MCP、skills、worktrees、automations 这些方向扩展。所以这里别简单说谁是单 agent、谁是多 agent更重要的是看你有没有把角色、状态和验证拆开。Claude Code /goal验证优先Claude Code 的 /goal 给我的感觉像是给 agent 装了一个裁判。你设定一个条件比如直到所有测试通过且 lint 无报错。每轮执行完后会有一个小模型独立判断这个条件是否达成。如果没达成自动进入下一轮如果达成了停下来给你结果。它的优势验证和主模型分离不是执行者自己说我完成了会话状态连续上下文不容易丢适合高风险的改动比如重构支付逻辑、修改用户权限但也有坑验证条件必须写得够准太松会假通过太严会无限循环Claude Code 支持恢复会话但长任务最好仍然把状态写到外部文件里Codex /goal长任务优先Codex 的 /goal 更像是一个任务锚点。它的好处是你可以把一个较长周期的目标挂住中间查看进度、继续推进不用每次重新解释我到底要干嘛。它的优势适合长周期任务比如批量补测试、迁移代码、跑数据清洗目标挂住以后对长任务更友好可以和 skills、worktrees、automations 组合成更工程化的流程缺点也很现实目标写得太虚推进过程还是会散验证不够严格时容易留下集成层面的隐患如果没有外部状态文件长任务中途仍然容易丢细节什么时候用哪个我按场景给了一个简单粗暴的对照复杂重构、多文件改动 → Claude Code /goal验证严格上下文连续。支付/权限等高风险代码 → Claude Code /goal错不起验证必须可靠。DevOps 脚本、批量生成 → Codex /goal适合挂住一个长目标分多轮慢慢推进。需要跑几小时/几天的任务 → Codex /goal更适合挂住目标分阶段推进。CI/CD / 自动化集成 → Codex /goal / Automations更适合和后台任务、仓库状态、自动化流程配合。需要多 agent 协作 → 外部状态机 subagent / MCP / worktree重点不是选哪个工具而是把规划、执行、验证拆成不同角色。当然现在也有不少团队两个一起用Claude 做规划和最终验证Codex 做中间执行。这种组合打法以后可能会越来越常见。三、实现 Loop 的四种方式上面对比的两个 /goal本质是同一种打法给一个条件让它自动跑到满足为止。但 /goal 只是把 loop 落地的最轻一种方式——任务再大一点光靠它就不够了。下面四种与其说是四选一不如说是从轻到重的四层按需往上叠方式一管什么时候停方式二管什么时候再触发方式三管怎么封装复用方式四管状态放哪、谁干哪步。它们解决的是不同的问题可以同时存在——一个真实的生产级 loop往往是四层一起上Goal 判停 Hook 自动验 cron 定时调度外部状态和多 agent 接力。所以下面按从轻到重来看你做到第几层取决于任务有多大。方式一Goal 模式这是四种里最轻量的一种给一个终止条件agent 自动跑到满足为止。它的现成实现就是第二节那两个 /goal——体感细节那边聊透了这里只做张速记卡方便和后面三种横向对比。快速使用/goal 所有单元测试通过且覆盖率不低于 80%适合场景修复某个具体 bug跑 lint/test 直到全绿改一个小功能验证条件明确优点门槛低原生支持自动推进省人工缺点验证条件必须写得准复杂任务容易假通过/goal 适合条件能一句话说清楚的任务。方式二Workflow 模式Workflow 模式适合周期性、流程化的任务。同样是定时再跑一轮按住在哪、谁来调度分三档越往下越无人值守会话内 loopClaude Code/loop在当前会话里按间隔重跑上下文还在只在会话开着且空闲时触发关掉就没了且 7 天自动过期。适合盯着一件事跑一阵。 →/loop 1h 扫一遍新 issue 并分类也能直接挂一条已存的命令/loop 20m /review-pr 1234外部调度cron / GitHub Actions脱离会话、无人值守但每次从干净状态起得自己把上下文喂进去。适合定时跑、跑完就走。 → crontab 或 Actions 的schedule:里挂一条claude -p ...Automations产品级后台任务托管调度自带触发与通知最贴近生产。适合长期挂着的后台流程。 → 在平台上配一个 routine定时触发完成推送适合场景每天扫描仓库 issue每周自动生成周报持续监控某个指标并告警优点可编排复杂流程支持定时触发可以接入后台任务或外部调度器缺点跨轮次容易失忆——每次定时触发都是新会话需要外部状态管理接方式四workflow 模式的关键是状态持久化否则每次循环都从零开始。方式三自定义 Command / Hook把跑通的 loop 流程固化下来复用给自己和团队。这里其实是两个机制解决的事不一样自定义 Command手动触发把一段常用 prompt 存成斜杠命令要用时自己调复用的是你反复在说的那段话。网上写 “command loop” 最常见的套路就是把自评 → 行动 → 验证 → 没完就重来这套循环、连同一个安全上限写进命令体再用$ARGUMENTS接当次任务// .claude/commands/loop.md 你在 loop 模式下工作目标是$ARGUMENTS 循环执行 1. 对照目标评估当前状态 2. 找出下一步该做什么 3. 执行 4. 验证结果 5. 达成 → 总结并停止未达成 → 回到第 1 步除非遇到必须人来拍板的卡点否则不要在中途停下。超过 20 轮仍未完成就停下来汇报进度。之后/loop 盯着测试套件跑把失败的修掉就能复跑这套循环——任务换了命令不用改。.claude/commands/是经典写法新版也可以写成.claude/skills/name/SKILL.md。Hook事件自动触发绑在事件上自动执行Stop/PreToolUse/PostToolUse等由 harness 在对应时机调起不用你记着喊复用的是该自动做的那道检查。配置写进.claude/settings.json// 每次 Edit/Write 改完文件自动跑一遍 lint { hooks: { PostToolUse: [ { matcher: Edit|Write, hooks: [{ type: command, command: npm run lint }] } ] } }其实第二节的 Claude Code/goal就是这种 hook 的现成例子——它本质是个Stophook每轮结束后由一个独立的小模型默认 Haiku判定条件达没达成没达成就把理由带进下一轮。Codex 的/goal是另一套机制——靠线程级持久化把目标存成任务契约重点在跨中断不丢并不走 Stop hook详见第二节。再硬核一点就是社区那套 Ralph Wiggum 技法用一个Stophook 拦住我做完了、把同一个 prompt 再喂回去循环到模型输出约定的完成标记如promiseCOMPLETE/promise或撞上--max-iterations上限为止。这套现在已经被官方/loop方式二收编了所以日常直接用/loop就行自己写命令更多是为了把团队规范固化下来。简单说Command 复用指令Hook 复用时机。适合场景团队需要统一的 loop 规范某些验证逻辑重复出现想把最佳实践固化下来优点高度定制化可复用缺点需要自己维护新人理解成本高自定义 command 是把个人经验变成团队规范的好办法但前提是你已经跑通了流程。方式四外部状态文件多 Agent这一种听起来最复杂其实核心很简单不要把任务进度只放在聊天上下文里而是写到一个外部地方。比如一个大重构任务不能只对 agent 说你继续做。更稳的做法是准备一个Loop.md、GitHub issue、Linear ticket 或state.json专门记录这几件事当前目标重构 user service并保证所有测试通过当前进度接口已拆分测试还差异常路径下一步补充权限失败场景的测试验证条件unit test integration test 全部通过约束不动对外 API 签名不碰数据库 schema 上限最多 20 轮 / 预算烧完即停没收敛就上报后两行别省跑无人值守的人基本都收敛到了同一套模板——目标、验证证据、不可违反的约束、外加一个轮数/预算硬顶。约束防它帮倒忙硬顶防它原地打转烧 token正对应后面坑 2、坑 3。状态放哪也有讲究最稳的其实是直接押在 git 上——进度看 commit 历史谁在改哪块用任务锁文件落到工具上角色用 subagent 来跑会改同一批文件就让每个 subagent 各挂一个 worktree 隔离它们之间不直接对话全靠这个外部状态文件协调——开工前读它、干完回写进度。Claude Code 的 agent teams 就是把这套共享任务清单角色分工做成了原生能力目前实验性、默认关闭没开它你用一个Loop.md手动维护也完全成立。快速使用- [x] 步骤1拆分 user service - [x] 步骤2更新主流程测试 - [ ] 步骤3补异常路径测试 - [ ] 步骤4Verifier 确认测试和行为都通过AGENTS/CLAUDE.md更适合放长期规则、项目约定和验证规范不太适合当每轮都会变化的状态表。动态状态最好放在Loop.md、issue、Linear 或state.json里。适合场景大型重构多人或多 agent 接力任务会跨会话、跨天推进生产环境里需要审计和回滚优点进度不会只藏在聊天里换人或换 agent 也能接着做规划、执行、验证可以分开质量更稳缺点比单次 prompt 麻烦需要约定状态格式状态文件没人维护就会变成另一种噪音Dynamic Workflows 放在哪如果你的 Claude Code 环境支持 Dynamic Workflows可以把它看成方式四的一种编排加速器。它适合把复杂流程拆成多个阶段先规划再并行执行再汇总再验证。相比全靠 prompt 推进它更像把编排逻辑写进脚本里。但它解决的是怎么编排多个步骤不是状态应该怎么设计。所以即使用了 Dynamic Workflows重要任务还是建议把目标、进度、下一步和验证条件写到外部状态里。方式四的重点不是多 agent而是状态外置。状态清楚了多 agent 才不会乱。四、选型建议与踩坑按场景选型我把前面的内容汇总成一个决策清单——注意这里给的是按最痛的点先补哪一层这些层通常是叠加的不是互斥单选最怕做错 → Claude Code /goal 独立验证最怕中断 → Codex /goal / Automations最怕重复劳动 → 自定义 command / hook / skill最怕状态丢失 → 外部状态文件比如 Loop.md、issue、state.json最怕多人或多 agent 混乱 → 外部状态文件 worktree verifier几个常见坑说实话这几个坑我都踩过。坑 1验证条件写得太松比如只写测试通过但测试本身没覆盖关键路径。agent 一看绿了就说完成结果上线出问题。坑 2验证条件写得太严比如要求零 warning、零 lint 问题、覆盖率 100%。agent 为了满足条件开始做一些无意义的改动token 烧光还没完。坑 3没有状态持久化会话一断前面几轮的努力全没。尤其是会话内循环和长时间 goal一定要记得把中间状态写进文件。坑 4把能跑当对agent 最喜欢说的就是已经修复。但代码能不能跑和代码对不对是两件事。关键路径一定要人工或独立 verifier 再看一遍。我的实践建议如果你是第一次捣鼓 loop 工程我建议这样渐进第一步先用 goal 模式做几个简单任务把验证条件写清楚。第二步遇到周期性任务再加会话内 loop、cron 或 Automations。第三步有重复需求时封装成自定义 command / hook / skill。第四步任务变大、角色变多再考虑外部状态文件多 agent。一句话说清楚从简单闭环开始不要一上来就搞生产级架构。总结Loop 工程不是让 agent 无限执行而是让它在正确的时机停下来。Claude Code /goal 和 Codex /goal 的使用体感不一样前者更适合明确条件下的验证闭环后者更适合长任务里的持续目标。选择哪个取决于你的任务更怕错、更怕断还是更怕状态丢。实现 loop 的方式也不止一种简单任务用 goal 模式周期性任务用 workflow 模式团队规范用自定义 command/hook生产级任务用外部状态文件多 agent工具只是手段验证条件才是 loop 工程的胜负手。最后如果说程序员已经是高薪职业那么干AI的程序员就是高薪中的高薪。现在的市场已经用数据给程序员指明了方向学AI大模型就是冲刺高薪的最优解看着身边越来越多的同行转型大模型、拿到高薪offer很多人心里都动了心但真正的难题来了零基础小白不知道从哪入门有基础的程序员找不到系统学习路径实战项目练手无门面试不知道考什么别慌今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包覆盖从入门到实战、从理论到面试、从基础到进阶的全流程所有资料均已整理归档无冗余、无套路免费分享给每一位想抓住AI风口的程序员和小白扫码免费领取全部内容1、大模型系统化学习路线2、大模型学习书籍文档3、AI大模型最新行业报告4、大模型项目实战配套源码5、大模型大厂面试真题四阶段精细化学习规划附时间节点可直接照做结合上述资源给大家整理了一份可直接落地的四阶段学习规划总时长约2个月小白可循序渐进程序员可根据自身基础调整节奏高效掌握大模型核心能力快速实现从“入门”到“能落地、能面试”的跨越。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容6、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】https://mp.weixin.qq.com/s/2P64VRSHoOz31E2oAT_ZpQ

相关新闻