上线之后，才是 agent 架构的分水岭——从你怎么抽那几百条评估样本说起

Yaqin Hei·July 2, 2026·18分钟阅读

中文EN

Agentic AI Agent 上线之后采样 Sampling Error Analysis 评估数据标注客服Agent 企业AI落地

《Agent 上线之后》系列第一篇。 《Agentic AI 落地方法论》讲的是怎么把一个 agent 造出来、送上线；这个新系列讲的是上线之后——采样、标注、评估、信号回流这一整套让 agent 持续做对的机制。它是当前企业 agent 市场最大的空白，也是最难被 demo 掩盖的真功夫。第一篇从最不起眼、却最先暴露落差的一步说起：采样。English version: After Launch Is Where Agent Architecture Is Decided.

你以为 AI 越强、越不需要人？恰恰相反。

真金白银在做 agent 的地方，标注和评估团队不减反增。中国 AI 基础数据服务市场 2019 到 2025 年复合增速约 47%，到 2025 年底专业标注人员达到 9.5 万；而且需求正从流水线打标，快速上移到「AI 出题专家」「垂域数据专家」这类高阶评估岗，阿里、字节、DeepSeek 在为它们开高溢价。2025 年底，VentureBeat 给这个趋势下了个判断：evaluation 正在取代传统 labeling，成为 agent 走向生产的关键路径。

一线公司在逆势扩建千人级的标注／评估团队——因为 Agent 上线，才是标注真正开始的地方。

而大多数企业的项目，上线就放养了。

这中间隔着的，是一整代认知的落差。它在一件最日常的事上暴露得最彻底——今天的企业，是怎么「提升」一个已经上线的 agent 的。

这一年我跟过的客服 Agent 项目里，不管是供应商，还是企业自己的架构师，默认动作几乎是同一个：后台有个页面能看线上对话 log，隔一阵翻一翻，看到某条回答不对、觉得这句话术可以改，就改掉；再配上用户的点赞、点踩，当作 agent 好不好的信号。直观，敏捷，像在持续迭代。

但这套流程里，没有一样东西是评估。

「看 log 改话术」感觉在进步，其实是在打地鼠

Andrew Ng 讲了十几年的 error analysis，核心只有一句：别凭感觉调，先从错误里抽一批样本、把失败原因归类、按占比排出该先修哪一类。这套动作，在「翻 log 改话术」的流程里一样都不存在。

没有抽样，你翻到哪条全凭运气和心情——今天心情好多翻二十条，上周忙就没看，样本从哪来、代表什么，没人说得清。没有失败模式归类，你改的是一句话术，不是一类错误；同一个根因在别的意图下还错着多少条，你不知道。点赞点踩更是个陷阱信号：愿意点的用户本就不随机（生气的和被彻底搞定的才点），而且千条对话里可能就几十个评价，又偏又稀。

这三件事叠加起来，结果是你以为在迭代，其实是在打地鼠——修好眼前这一条，既不知道同类错误在别处还剩多少，也不知道这次改动让整体变好了还是变差了。没有一个固定的评估集做基线，你甚至没有资格说「这次改进了」——你只是让眼前这条 log 不再刺眼而已。

这个缺陷还不只在上线之后。往前看，同一批人做意图识别，是直接拿一个 LLM 当路由，而不是一套分层的意图架构（rule → embedding → LLM → unknown）。前半段的「做出来」和后半段的「持续做对」，共享同一个底层缺陷：

把 agent 当成一个可以随手调改的 LLM，而不是一套可以度量、可以系统性改进的架构。

这才是 agent 架构和当前企业 agent 市场之间真正的落差——不在模型强不强，而在你有没有一套能诚实测量 agent 的机制。而这套机制的第一块砖，是一个几乎没人当回事的动作：采样。

第一步不是翻 log，是抽样——但随机抽样是第二个陷阱

从「翻 log」升级到「抽样」，是从 0 到 1。绝大多数团队还停在 0：他们看的是自己碰巧翻到的、或者被点踩顶上来的对话，而不是一个有定义的样本。只要你的评估样本不是「抽」出来的，而是「翻」出来的，你测的就永远是引起注意的那部分，不是真实发生的那部分。

但就算你已经比这个市场更进一步、开始随机抽样了，随机抽样本身还是个陷阱。

原因是生产流量极度长尾。一个客服 Agent 一天几万条对话，九成是「物流到哪了」「怎么退货」这类只读查询；真正会让人半夜接电话的，是那几个会动钱的写操作——退款、取消订单、改收货地址、拦截物流。这类高风险请求，往往只占全天流量的千分之几。

在一个随机抽的 200 条样本里，这类单子的期望出现次数，是 0 到 1 条。

于是你算出一个体面的数字，比如 96%。但它测量的几乎全是 agent 最不容易出错的部分——常见的、只读的、无关金钱的对话。而你真正睡不着的那类风险：退错一笔钱、错放一单合规，它的真实错误率，完整藏在那一百多条你从没抽到的样本里，一次都没被测过。

随机抽样把评估投入按流量平均分——于是最该被盯住的高危写操作，被稀释进了统计噪声。

一个评估指标的可信度，上限不由模型决定，而由你的抽样框决定。 抽样偏了，后面所有的准确率、满意度、自动化率，都是在一个被悄悄挑过的、最安全的子集上算出来的漂亮数字。随机抽样看起来最「公平」，恰恰因为这份公平，它把最该被盯住的稀有高危事件，稀释到了统计噪声里。

正确的采样是一张分层的框，不是一勺随机

先把结论摆桌面上：评估集不该按真实流量占比抽，而该按「出事的代价」重新加权抽。 常见、低风险的意图抽一点意思一下就够；稀有、会动钱的意图，要故意过采样，让它在评估集里的比例远高于线上真实比例。

一张能用的分层抽样框，至少切这么几层：

风险层（必须过采样）——把会动钱、会触发合规、不可逆的写操作单独拎出来。我在项目里直接复用了那份「资损动作意图」清单：退款、取消订单、售后取消、改收货地址、改退货单号、催发货、拦截物流——七个写操作。它们占线上流量千分之几，但在评估集里我给到 30% 以上。理由很简单：一次退错钱的代价，不等于一次「物流查询」答错的代价，那评估投入凭什么按流量平均分。
不确定性层——agent 自己置信度低的、Critic 拦下来的、走了 fallback 的。这些是模型自己举手说「我不确定」的地方，命中错误的密度最高。
分歧层——如果你有双 agent 或 Critic，两者判断不一致的样本，几乎每一条都值得人看。
新意图 / OOD 层——归到 unknown 的、话术明显没见过的。它们是意图体系该演进的信号，也是最容易被「随机抽样」漏掉的未来风险。
常规层（随机）——剩下的大头，随机抽一小部分做基线，证明常规场景没退化就行。

采样的本质，是把有限的标注预算从「均匀撒」改成「往会出事的地方倾斜」。

这张框的本质，是把有限的标注预算，从「均匀撒」改成「往会出事的地方倾斜」。它和 error analysis 是一套动作的两半：采样决定你看哪些错误，error analysis 决定你从这些错误里提炼出哪几类根因、先修哪一类。

有一类采样，必须对 agent 保密

这一层几乎没人想到，但它是把评估和「刷分」区分开的关键。

只要 agent 或供应商知道哪些样本会被抽查、被评分，评估就会被优化成讨好抽查集，而不是把事情做对。 这不是阴谋论——任何被度量的系统都会朝着度量的方向漂移。如果每次评估都固定抽那批意图、那批渠道，时间一长，优化就会精准地压在「被看见的地方」，而看不见的角落继续烂。

这正是 reward hacking 在评估环节的翻版：你以为在测能力，其实在测「对着已知考题的应试能力」。

所以有两条操作纪律：抽样的具体样本要轮换、要带随机性，别让它可预测；而风险层要不预告地插进真实流量里做盲测。评估集可以是公开的方法，但不能是公开的题库。

这周就能做的三件事

不用等立项、不用等预算，下次评审会你就能用上：

问一个问题，让评估集现原形。「我们线上评估集，是抽出来的还是翻出来的？退款这类高危意图，是按真实占比抽，还是过采样？」答「看 log」或「随机抽一批」的，说明评估还停在打地鼠阶段；答不上来的，说明这个数字没有抽样框支撑，不能进决策。
给评估集补一张风险层。 把你项目里会动钱、会碰合规的那几个写操作意图列出来，单独过采样到评估集的 30% 以上。这一步不需要任何新工具，只需要把「按流量抽」改成「按代价抽」。
建一个固定基线集，再谈改进。 在改任何话术之前，先冻结一个带风险层的评估集当基线。以后每次改动，都在同一张集上重测——这是你唯一能诚实回答「这次到底改好了没有」的方式。把「改好眼前这条」换成「基线整体涨了没有」。

回到开头那条落差。一线公司为什么在 AI 越来越强的时候，反而扩建千人级的评估团队？不是因为他们钱多，是因为他们早就想通了一件事：模型只决定 agent 的上限，而采样、标注、评估、回流这套机制，决定它上线之后会不会一路下滑。 Agent 上线不是终点，是标注真正开始的地方。

采样是这套机制的第一块砖。下一篇讲第二块——标注本身：谁来标、怎么标、两个人标同一条不一致到 30% 的时候，你的 ground truth 到底是什么。

这套「上线之后」的架构，才是当前企业 agent 市场最大的空白，也是最难被 demo 掩盖的真功夫。

这一篇如果帮你把评估集从「随手翻 log」改成一张分层抽样框，回复关键词「抽样框」，我把那张分层抽样框模板 + 3 个评审会问题清单发给你。

Share on X

Subscribe for updates

Get the latest AI engineering posts delivered to your inbox.

← All posts