标多少条才够？不是流量的百分之几，是「标到能下结论就停」

Yaqin Hei·July 3, 2026·16分钟阅读

中文EN

Agentic AI Agent 上线之后标注量数据标注置信区间 Confidence Interval 评估客服Agent 企业AI落地

《Agent 上线之后》系列第二篇。 上一篇《上线之后，才是 agent 架构的分水岭》讲了抽哪些——分层抽样、把风险层过采样到 30% 以上。这一篇接着回答下半场：每一格，到底标多少条才够。English version: How Much to Label.

给定线上流量，一个 agent 要标多少条才够？

大多数人第一反应是按比例——「流量的 5%」「每天抽 200 条」。这个答案从第一步就错了。

场景。评审会上有人汇报：某个意图标了 50 条，96% 做对，可以上线了吧？数字很漂亮，会议室里没人反对。

但 50 条里的 96%，统计意义上的下界只有约 86%。换句话说，你并没有把握它真做到了 90%——你只是「看着」做到了。小样本的点估计会骗人：样本越少，那个漂亮的百分比和它背后真实水平的差距就越大，而这个差距，恰好藏在你没标够的那些条里。

真正该问的不是「标了多少、准确率多少」，而是「标到能对上线门槛下结论了没有」。而决定这个量的，不是流量，是另外三样——agent 真实有多好、有多少个意图、跑在多少个渠道上。把这三样想清楚，你会得到一个反直觉的结论：流量翻倍，该标的量几乎不涨。

50 条 96% 不能上线——小样本的点估计会骗人

一个准确率数字有两种读法：点估计（就是那个 96%），和置信区间下界（你有把握不低于的那条线）。上线该看的是下界，不是点估计。

为什么？因为点估计是运气的函数。50 条里对了 48 条，是 96%；但只要其中两条是碰巧对的，真实水平可能就在 86% 上下。样本越小，这种「碰巧」的空间越大。看下界，就是把运气从里面扣掉——它回答的是「最坏情况下我还有没有 90%」，而不是「这批样本恰好考了多少分」。

点估计是运气的函数——门槛之上有没有把握，不看你考了多少分，看你考了多少题。

同样是 96% 的点估计，50 条的下界大约在 86%，要把下界推过 90%，你得标到约 140 条。门槛之上有没有把握，不看你考了多少分，看你考了多少题。

这给你一个当周就能用的检测动作：任何人拿一个准确率来申请上线，先问一句——这是点估计，还是置信区间下界？ 答「就是标了 N 条算出来的」，那这个数还没资格进上线决策；答不出「下界」两个字的，说明团队还没有「小样本会骗人」这个概念。

标多少条，取决于 agent 真实有多好——一张会「爆炸」的表

先把结论摆桌面上：该标多少条，不是拍一个死数字，而是取决于 agent 在这个意图上真实做得有多好——越贴近门槛，需要的样本量爆炸式增长。

这一年我在带客服 Agent 项目时，反复用的是这样一张对照表（门槛按「做对率下界过 90%」算）：

agent 在该意图的真实做对率	需标注 / 意图	判读
100%	约 35 条	很划算
98%	约 53 条	划算
96%	约 84 条	可接受
94%	约 204 条	很贵
92% 及以下	700 条以上，或永远过不了	别标了，是 agent 要改

门槛以下再标只是把人力烧在一个注定过不了的意图上——置信区间在替你喊停。

最关键的洞察在最后一行。真实做对率只有 92% 时，你标 700 条都未必能把下界推过 90%；真到了 90%，数学上永远过不了。这时候置信区间不是在为难你，是在诚实地告诉你一件事——不是数据不够，是 agent 不够好，标再多也白搭，得先回去改 agent。

这条线把「标注」和「改模型」分了工：门槛附近（96% 往上），多标能换来一个能上线的结论，值；门槛以下（92% 往下），再标只是把人力烧在一个注定过不了的意图上。一个健康的准入流程，应该在这里主动喊停，而不是让标注团队闷头标到天荒地老。

标注量不随流量涨，随「意图 × 渠道」涨

这是最反直觉、也最省钱的一点。

按流量比例的思路里，流量翻倍，标注量翻倍——3000 通标 1500，6000 通就得标 3000。但正确的做法不是这样：你是把每一个意图标到能下结论就停，而下结论需要的量（几十到一百多条）跟这个意图的总流量几乎无关。一个意图一周来 100 通还是 10000 通，标到下界过 90% 需要的都是那 ~70 到 150 条。

所以真正的公式是：总标注量 ≈ 意图数 × 有效渠道数 × 每格到定论的量。 流量翻倍，每一格仍然只需要那么多条，总量几乎不动；真正让标注量上涨的，是你多开了一个意图、或多上了一个渠道——那意味着多出一批格子，每格要各自攒够样本。

为什么渠道也算一维？因为渠道是做对率的真实变量——不同渠道的知识库来源、政策口径（换货、运费险、小额退）、检索能力都不一样，同一个意图在不同渠道的正确答案都可能不同。把两个渠道混进一个数里报，流量大的那个渠道会把流量小的那个的问题加权稀释掉，总数看着过了 90%，其中某个渠道其实在翻车。所以每个渠道要各自成框、各自判。

这条给老板的预算含义很直接：别拿「日活翻倍了标注要不要加人」来估。 该问的是——这一版新增了几个意图、上了几个新渠道？新增一个渠道，约等于多一批格子要从头攒够样本，而不是把现有标注量按流量摊一遍。

双轨：资损全采，咨询标到下结论就停

具体落到两条轨上，纪律不一样：

资损轨（退款、取消、改地址、拦截物流……）：全采，不抽样，上限一格 150 条。 这类动作能真金白银亏钱、零容忍，判错一次就是损失；好在它们本来量就小，全标不贵。用「零抽样误差」换「一条不漏」，值——这正是上一篇说的风险层，落到标注量上的样子。
咨询轨（尺码、物流、发票、活动……）：标到 Wilson 下界过 90% 就停；标到 150 条还没过，停手，报「agent 需改进」。 量大，但每格几十条就能代表整体，标到能下结论即止，别浪费。

外加三条不能破的硬规矩：

单元是「意图 × 渠道」，不是「意图」。私域的尺码和公域的尺码是两格，各自计数、各自过闸。
地板 30 条——一格不满 30 条不显示指标，标「样本积累中」，攒几周再说。不足这个数，任何百分比都是噪声。
某格周流量低于它需要的样本数，就只能把那些全采，别硬凑；新渠道流量小，要在上游按渠道锁量，而不是指望总流量自然摊到它头上。

这周能做的三件事

把「点估计」从上线决策里赶出去。 下次谁拿准确率申请上线，问一句「这是点估计还是置信区间下界？」——只认下界，下界过门槛才算就绪。
把准入单元从「意图」改成「意图 × 渠道」，设 30 条地板。 不改口径，只改计数方式：每个意图×渠道各自计数、各自过闸，不满 30 条的显示「样本积累中」，绝不用一个混合数糊过闸门。
把那张「真实做对率 → 该标多少条」的表拍进评审会。 让「该标多少」变成一个由数据决定、会在门槛附近喊停的流程，而不是拍脑袋定一个死数字、或者标到没人有力气为止。

回到开头那个问题。「标多少条才够」之所以让人答不上来，是因为大多数人把它当成一道流量题，而它其实是一道「你有多大把握」的题。把标注量绑在「标到能对门槛下结论就停」上，你会同时拿到三样东西：省下的人力、一个诚实的上线闸门、以及一个会主动告诉你「别标了、该改 agent 了」的信号。

下一篇讲这套机制里最容易被当脏活、其实是 ground truth 的一环——标注本身：谁来标、怎么标、当两个人标同一条不一致到 30% 的时候，你手里的「标准答案」到底还算不算数。

这一篇如果帮你把「标多少」从拍脑袋变成一张会喊停的表，回复关键词「标注量表」，我把那张「真实做对率 → 该标多少条」对照表 + 双轨定量模板发给你。

Share on X

Subscribe for updates

Get the latest AI engineering posts delivered to your inbox.

← All posts