上线之后,才是 agent 架构的分水岭——从你怎么抽那几百条评估样本说起

Yaqin Hei··18分钟阅读
中文EN
上线之后,才是 agent 架构的分水岭——从你怎么抽那几百条评估样本说起

《Agent 上线之后》系列第一篇。 《Agentic AI 落地方法论》讲的是怎么把一个 agent 造出来、送上线;这个新系列讲的是上线之后——采样、标注、评估、信号回流这一整套让 agent 持续做对的机制。它是当前企业 agent 市场最大的空白,也是最难被 demo 掩盖的真功夫。第一篇从最不起眼、却最先暴露落差的一步说起:采样。English version: After Launch Is Where Agent Architecture Is Decided.

你以为 AI 越强、越不需要人?恰恰相反。

真金白银在做 agent 的地方,标注和评估团队不减反增。中国 AI 基础数据服务市场 2019 到 2025 年复合增速约 47%,到 2025 年底专业标注人员达到 9.5 万;而且需求正从流水线打标,快速上移到「AI 出题专家」「垂域数据专家」这类高阶评估岗,阿里、字节、DeepSeek 在为它们开高溢价。2025 年底,VentureBeat 给这个趋势下了个判断:evaluation 正在取代传统 labeling,成为 agent 走向生产的关键路径。

一线公司在逆势扩建千人级的标注/评估团队——因为 Agent 上线,才是标注真正开始的地方。

而大多数企业的项目,上线就放养了。

这中间隔着的,是一整代认知的落差。它在一件最日常的事上暴露得最彻底——今天的企业,是怎么「提升」一个已经上线的 agent 的。

这一年我跟过的客服 Agent 项目里,不管是供应商,还是企业自己的架构师,默认动作几乎是同一个:后台有个页面能看线上对话 log,隔一阵翻一翻,看到某条回答不对、觉得这句话术可以改,就改掉;再配上用户的点赞、点踩,当作 agent 好不好的信号。直观,敏捷,像在持续迭代。

但这套流程里,没有一样东西是评估。

「看 log 改话术」感觉在进步,其实是在打地鼠

Andrew Ng 讲了十几年的 error analysis,核心只有一句:别凭感觉调,先从错误里抽一批样本、把失败原因归类、按占比排出该先修哪一类。这套动作,在「翻 log 改话术」的流程里一样都不存在。

没有抽样,你翻到哪条全凭运气和心情——今天心情好多翻二十条,上周忙就没看,样本从哪来、代表什么,没人说得清。没有失败模式归类,你改的是一句话术,不是一类错误;同一个根因在别的意图下还错着多少条,你不知道。点赞点踩更是个陷阱信号:愿意点的用户本就不随机(生气的和被彻底搞定的才点),而且千条对话里可能就几十个评价,又偏又稀。

这三件事叠加起来,结果是你以为在迭代,其实是在打地鼠——修好眼前这一条,既不知道同类错误在别处还剩多少,也不知道这次改动让整体变好了还是变差了。 没有一个固定的评估集做基线,你甚至没有资格说「这次改进了」——你只是让眼前这条 log 不再刺眼而已。

这个缺陷还不只在上线之后。往前看,同一批人做意图识别,是直接拿一个 LLM 当路由,而不是一套分层的意图架构(rule → embedding → LLM → unknown)。前半段的「做出来」和后半段的「持续做对」,共享同一个底层缺陷:

把 agent 当成一个可以随手调改的 LLM,而不是一套可以度量、可以系统性改进的架构。

这才是 agent 架构和当前企业 agent 市场之间真正的落差——不在模型强不强,而在你有没有一套能诚实测量 agent 的机制。而这套机制的第一块砖,是一个几乎没人当回事的动作:采样。

第一步不是翻 log,是抽样——但随机抽样是第二个陷阱

从「翻 log」升级到「抽样」,是从 0 到 1。绝大多数团队还停在 0:他们看的是自己碰巧翻到的、或者被点踩顶上来的对话,而不是一个有定义的样本。只要你的评估样本不是「抽」出来的,而是「翻」出来的,你测的就永远是引起注意的那部分,不是真实发生的那部分。

但就算你已经比这个市场更进一步、开始随机抽样了,随机抽样本身还是个陷阱。

原因是生产流量极度长尾。一个客服 Agent 一天几万条对话,九成是「物流到哪了」「怎么退货」这类只读查询;真正会让人半夜接电话的,是那几个会动钱的写操作——退款、取消订单、改收货地址、拦截物流。这类高风险请求,往往只占全天流量的千分之几

在一个随机抽的 200 条样本里,这类单子的期望出现次数,是 0 到 1 条

于是你算出一个体面的数字,比如 96%。但它测量的几乎全是 agent 最不容易出错的部分——常见的、只读的、无关金钱的对话。而你真正睡不着的那类风险:退错一笔钱、错放一单合规,它的真实错误率,完整藏在那一百多条你从没抽到的样本里,一次都没被测过。

长尾流量与评估投入的错配:九成只读查询占满随机样本,千分之几的高危写操作几乎抽不到

随机抽样把评估投入按流量平均分——于是最该被盯住的高危写操作,被稀释进了统计噪声。

一个评估指标的可信度,上限不由模型决定,而由你的抽样框决定。 抽样偏了,后面所有的准确率、满意度、自动化率,都是在一个被悄悄挑过的、最安全的子集上算出来的漂亮数字。随机抽样看起来最「公平」,恰恰因为这份公平,它把最该被盯住的稀有高危事件,稀释到了统计噪声里。

正确的采样是一张分层的框,不是一勺随机

先把结论摆桌面上:评估集不该按真实流量占比抽,而该按「出事的代价」重新加权抽。 常见、低风险的意图抽一点意思一下就够;稀有、会动钱的意图,要故意过采样,让它在评估集里的比例远高于线上真实比例。

一张能用的分层抽样框,至少切这么几层:

  • 风险层(必须过采样)——把会动钱、会触发合规、不可逆的写操作单独拎出来。我在项目里直接复用了那份「资损动作意图」清单:退款、取消订单、售后取消、改收货地址、改退货单号、催发货、拦截物流——七个写操作。它们占线上流量千分之几,但在评估集里我给到 30% 以上。理由很简单:一次退错钱的代价,不等于一次「物流查询」答错的代价,那评估投入凭什么按流量平均分。
  • 不确定性层——agent 自己置信度低的、Critic 拦下来的、走了 fallback 的。这些是模型自己举手说「我不确定」的地方,命中错误的密度最高。
  • 分歧层——如果你有双 agent 或 Critic,两者判断不一致的样本,几乎每一条都值得人看。
  • 新意图 / OOD 层——归到 unknown 的、话术明显没见过的。它们是意图体系该演进的信号,也是最容易被「随机抽样」漏掉的未来风险。
  • 常规层(随机)——剩下的大头,随机抽一小部分做基线,证明常规场景没退化就行。

分层抽样框:风险层过采样到 30%+,叠加不确定性层、分歧层、OOD 层,常规层只留一小份随机做基线

采样的本质,是把有限的标注预算从「均匀撒」改成「往会出事的地方倾斜」。

这张框的本质,是把有限的标注预算,从「均匀撒」改成「往会出事的地方倾斜」。它和 error analysis 是一套动作的两半:采样决定你看哪些错误,error analysis 决定你从这些错误里提炼出哪几类根因、先修哪一类。

有一类采样,必须对 agent 保密

这一层几乎没人想到,但它是把评估和「刷分」区分开的关键。

只要 agent 或供应商知道哪些样本会被抽查、被评分,评估就会被优化成讨好抽查集,而不是把事情做对。 这不是阴谋论——任何被度量的系统都会朝着度量的方向漂移。如果每次评估都固定抽那批意图、那批渠道,时间一长,优化就会精准地压在「被看见的地方」,而看不见的角落继续烂。

这正是 reward hacking 在评估环节的翻版:你以为在测能力,其实在测「对着已知考题的应试能力」。

所以有两条操作纪律:抽样的具体样本要轮换、要带随机性,别让它可预测;而风险层要不预告地插进真实流量里做盲测。评估集可以是公开的方法,但不能是公开的题库。

这周就能做的三件事

不用等立项、不用等预算,下次评审会你就能用上:

  1. 问一个问题,让评估集现原形。「我们线上评估集,是抽出来的还是翻出来的?退款这类高危意图,是按真实占比抽,还是过采样?」答「看 log」或「随机抽一批」的,说明评估还停在打地鼠阶段;答不上来的,说明这个数字没有抽样框支撑,不能进决策。
  2. 给评估集补一张风险层。 把你项目里会动钱、会碰合规的那几个写操作意图列出来,单独过采样到评估集的 30% 以上。这一步不需要任何新工具,只需要把「按流量抽」改成「按代价抽」。
  3. 建一个固定基线集,再谈改进。 在改任何话术之前,先冻结一个带风险层的评估集当基线。以后每次改动,都在同一张集上重测——这是你唯一能诚实回答「这次到底改好了没有」的方式。把「改好眼前这条」换成「基线整体涨了没有」。

回到开头那条落差。一线公司为什么在 AI 越来越强的时候,反而扩建千人级的评估团队?不是因为他们钱多,是因为他们早就想通了一件事:模型只决定 agent 的上限,而采样、标注、评估、回流这套机制,决定它上线之后会不会一路下滑。 Agent 上线不是终点,是标注真正开始的地方。

采样是这套机制的第一块砖。下一篇讲第二块——标注本身:谁来标、怎么标、两个人标同一条不一致到 30% 的时候,你的 ground truth 到底是什么。

这套「上线之后」的架构,才是当前企业 agent 市场最大的空白,也是最难被 demo 掩盖的真功夫。


这一篇如果帮你把评估集从「随手翻 log」改成一张分层抽样框,回复关键词「抽样框」,我把那张分层抽样框模板 + 3 个评审会问题清单发给你。

Subscribe for updates

Get the latest AI engineering posts delivered to your inbox.

评论