生产 Agent 别只跑 demo:先补 6 类评测样本

生产 Agent 别只跑 demo:先补 6 类评测样本
生产 Agent 别只跑 demo先补 6 类评测样本这两周国内关于 Codex、Claude Code、MCP、AI 编程 Agent 的讨论明显升温。很多团队已经不再纠结“能不能做一个 Agent demo”而是在问“为什么同一个 demo一接真实业务就开始慢、贵、错、不可控”。这里最常见的问题不是模型完全不会做而是评测样本还是停留在演示样本。很多系统在内部验收时跑的都是这些内容几条已经调顺的 happy path少量静态文档问答一两个成功的工具调用案例能在会议里稳定展示的脚本化任务。这些样本能证明“它跑过”但证明不了“它进生产后还能稳”。对 production AI agent systems 来说评测不是做一组漂亮分数而是提前回答两个问题哪些任务它现在真的能稳定做哪些失败模式已经被样本覆盖不会一上线才第一次遇到。下面这 6 类评测样本是我认为 Agent 要进真实流程前至少该补齐的。1. 标准成功样本先把基础能力测稳第一类当然还是标准成功样本但它的作用不是做宣传而是建立基线。这类样本至少应该覆盖常见用户请求典型知识检索标准工具调用正常返回后的输出结构单轮和多轮两种常见交互。如果这层都不稳后面谈边界、审计和自动化比例都没有意义。但问题在于很多团队把这类样本跑通以后就误以为“评测已经够了”。2. 歧义样本需求不清时系统会不会乱猜真实业务里用户输入经常并不完整。比如“帮我查一下这个客户现在什么情况”“把这个问题处理一下”“按之前那个方案继续推进”“给我看看最近设备有没有异常”。这些请求对人来说都需要追问或补上下文对 Agent 也一样。评测里如果没有歧义样本团队很容易只看到“模型会做题”看不到“它在信息不足时会不会强行给结论”。这类样本要测的重点不是回答得多快而是会不会先澄清会不会暴露自己缺少上下文会不会误选工具会不会把模糊请求直接推进成真实动作。3. 证据冲突样本检索到了但依据互相打架很多生产事故不是因为完全查不到而是因为查到了两份互相冲突的依据。常见场景包括新旧制度文档不一致CRM 状态和工单状态不一致设备实时状态和缓存快照不一致两个数据源对同一客户给出不同标签。如果评测只测“命中一条正确答案”系统上线后就很容易在证据冲突时继续硬答。这类样本应该强制检查是否能暴露冲突来源是否会暂停执行是否能要求人工确认citations 能不能回指到具体证据片段。4. 权限与边界样本不该看到、不该做的会不会被拦下很多 Agent demo 看起来很顺是因为测试账号权限太大或者样本根本没碰真正的边界。但生产里最值得测的往往恰恰是这些“不该发生”的场景当前角色是否看到了不该看的字段当前任务是否调用了超出范围的工具当前环境是否把只读动作误走成写动作高风险对象是否绕过了审批或转人工规则。如果没有这类负向样本所谓“权限控制”就很容易只停留在配置表里没经过真实回归。5. 失败与超时样本下游不稳定时系统怎么停真实业务里下游系统不稳定不是偶发而是常态。例如检索接口超时外部工具返回 500数据源暂时不可用第三方 API 配额打满某一步成功后续动作失败。很多 demo 之所以“看起来稳定”只是因为评测环境从来不主动制造失败。生产评测更该检查的是失败是否有明确分类audit logs 能不能留下完整链路是否会触发重试、降级或停机写操作半成功时有没有补偿或回滚记录。6. 成本与时延样本结果对了但代价能不能接受有些 Agent 在 demo 环境里效果不错但一放大到真实流量就会暴露另一种失败每次都走高成本模型工具调用链太长上下文堆太厚同一问题重复查多次平均时延能接受尾延迟却过高。这类问题如果不进评测样本团队上线前几乎不会认真讨论。所以评测不该只产出“正确率”还应该记录不同任务等级对应的模型路由每条链路的工具调用次数平均与 P95/P99 时延单任务估算成本失败重试后的代价变化。这才是能真正指导生产决策的数据。为什么“样本覆盖”比“再调一轮 prompt”更优先因为很多上线问题并不是 prompt 不够细而是样本没有覆盖真实失败模式。如果评测集里只有成功案例团队最后学到的只会是demo 能跑分数不难看会议里可以展示真正危险的情况没有被提前暴露。更稳妥的做法是把评测当成生产前的风险样本集而不是模型能力宣传册。一个够用的补齐顺序如果团队最近正准备把 Agent 接进真实业务我更建议按这个顺序补评测先补标准成功样本建立最低可用基线再补歧义样本检查会不会乱猜再补证据冲突样本检查 citations 和停机规则再补权限边界样本验证 tool-calling 与字段暴露再补失败超时样本验证 audit logs、重试和回滚最后补成本时延样本决定模型路由和自动化比例。这样团队讨论的就不再只是“这个 Agent 看起来聪不聪明”而是“它在真实任务分布下哪些风险已经被测过哪些还没资格放进生产”。如果最近在做 AI Agent Production-Readiness Review这类评测覆盖通常也会被优先检查任务分级有没有落到样本、tool-calling 失败有没有回归、citations 和 audit logs 能不能支撑复盘、模型路由是否有成本和时延依据。重点不是把系统讲得更大而是让它在真实业务里更稳、更可追溯。