标多少条才够?不是流量的百分之几,是「标到能下结论就停」

Yaqin Hei··16分钟阅读
中文EN
标多少条才够?不是流量的百分之几,是「标到能下结论就停」

《Agent 上线之后》系列第二篇。 上一篇《上线之后,才是 agent 架构的分水岭》讲了抽哪些——分层抽样、把风险层过采样到 30% 以上。这一篇接着回答下半场:每一格,到底标多少条才够。English version: How Much to Label.

给定线上流量,一个 agent 要标多少条才够?

大多数人第一反应是按比例——「流量的 5%」「每天抽 200 条」。这个答案从第一步就错了。

场景。评审会上有人汇报:某个意图标了 50 条,96% 做对,可以上线了吧?数字很漂亮,会议室里没人反对。

但 50 条里的 96%,统计意义上的下界只有约 86%。换句话说,你并没有把握它真做到了 90%——你只是「看着」做到了。小样本的点估计会骗人:样本越少,那个漂亮的百分比和它背后真实水平的差距就越大,而这个差距,恰好藏在你没标够的那些条里。

真正该问的不是「标了多少、准确率多少」,而是「标到能对上线门槛下结论了没有」。而决定这个量的,不是流量,是另外三样——agent 真实有多好、有多少个意图、跑在多少个渠道上。把这三样想清楚,你会得到一个反直觉的结论:流量翻倍,该标的量几乎不涨。

50 条 96% 不能上线——小样本的点估计会骗人

一个准确率数字有两种读法:点估计(就是那个 96%),和置信区间下界(你有把握不低于的那条线)。上线该看的是下界,不是点估计。

为什么?因为点估计是运气的函数。50 条里对了 48 条,是 96%;但只要其中两条是碰巧对的,真实水平可能就在 86% 上下。样本越小,这种「碰巧」的空间越大。看下界,就是把运气从里面扣掉——它回答的是「最坏情况下我还有没有 90%」,而不是「这批样本恰好考了多少分」。

同样是 96% 点估计:50 条的置信区间下界只有约 86%,标到约 140 条才能把下界推过 90% 门槛

点估计是运气的函数——门槛之上有没有把握,不看你考了多少分,看你考了多少题。

同样是 96% 的点估计,50 条的下界大约在 86%,要把下界推过 90%,你得标到约 140 条。门槛之上有没有把握,不看你考了多少分,看你考了多少题。

这给你一个当周就能用的检测动作:任何人拿一个准确率来申请上线,先问一句——这是点估计,还是置信区间下界? 答「就是标了 N 条算出来的」,那这个数还没资格进上线决策;答不出「下界」两个字的,说明团队还没有「小样本会骗人」这个概念。

标多少条,取决于 agent 真实有多好——一张会「爆炸」的表

先把结论摆桌面上:该标多少条,不是拍一个死数字,而是取决于 agent 在这个意图上真实做得有多好——越贴近门槛,需要的样本量爆炸式增长。

这一年我在带客服 Agent 项目时,反复用的是这样一张对照表(门槛按「做对率下界过 90%」算):

agent 在该意图的真实做对率需标注 / 意图判读
100%约 35 条很划算
98%约 53 条划算
96%约 84 条可接受
94%约 204 条很贵
92% 及以下700 条以上,或永远过不了别标了,是 agent 要改

随真实做对率贴近门槛,需标注量爆炸式增长:100% 只要 ~35 条,94% 要 ~204 条,92% 及以下要 700+ 或永远过不了

门槛以下再标只是把人力烧在一个注定过不了的意图上——置信区间在替你喊停。

最关键的洞察在最后一行。真实做对率只有 92% 时,你标 700 条都未必能把下界推过 90%;真到了 90%,数学上永远过不了。这时候置信区间不是在为难你,是在诚实地告诉你一件事——不是数据不够,是 agent 不够好,标再多也白搭,得先回去改 agent。

这条线把「标注」和「改模型」分了工:门槛附近(96% 往上),多标能换来一个能上线的结论,值;门槛以下(92% 往下),再标只是把人力烧在一个注定过不了的意图上。一个健康的准入流程,应该在这里主动喊停,而不是让标注团队闷头标到天荒地老。

标注量不随流量涨,随「意图 × 渠道」涨

这是最反直觉、也最省钱的一点。

按流量比例的思路里,流量翻倍,标注量翻倍——3000 通标 1500,6000 通就得标 3000。但正确的做法不是这样:你是把每一个意图标到能下结论就停,而下结论需要的量(几十到一百多条)跟这个意图的总流量几乎无关。一个意图一周来 100 通还是 10000 通,标到下界过 90% 需要的都是那 ~70 到 150 条。

所以真正的公式是:总标注量 ≈ 意图数 × 有效渠道数 × 每格到定论的量。 流量翻倍,每一格仍然只需要那么多条,总量几乎不动;真正让标注量上涨的,是你多开了一个意图、或多上了一个渠道——那意味着多出一批格子,每格要各自攒够样本。

为什么渠道也算一维?因为渠道是做对率的真实变量——不同渠道的知识库来源、政策口径(换货、运费险、小额退)、检索能力都不一样,同一个意图在不同渠道的正确答案都可能不同。把两个渠道混进一个数里报,流量大的那个渠道会把流量小的那个的问题加权稀释掉,总数看着过了 90%,其中某个渠道其实在翻车。所以每个渠道要各自成框、各自判。

这条给老板的预算含义很直接:别拿「日活翻倍了标注要不要加人」来估。 该问的是——这一版新增了几个意图、上了几个新渠道?新增一个渠道,约等于多一批格子要从头攒够样本,而不是把现有标注量按流量摊一遍。

双轨:资损全采,咨询标到下结论就停

具体落到两条轨上,纪律不一样:

  • 资损轨(退款、取消、改地址、拦截物流……):全采,不抽样,上限一格 150 条。 这类动作能真金白银亏钱、零容忍,判错一次就是损失;好在它们本来量就小,全标不贵。用「零抽样误差」换「一条不漏」,值——这正是上一篇说的风险层,落到标注量上的样子。
  • 咨询轨(尺码、物流、发票、活动……):标到 Wilson 下界过 90% 就停;标到 150 条还没过,停手,报「agent 需改进」。 量大,但每格几十条就能代表整体,标到能下结论即止,别浪费。

外加三条不能破的硬规矩:

  1. 单元是「意图 × 渠道」,不是「意图」。私域的尺码和公域的尺码是两格,各自计数、各自过闸。
  2. 地板 30 条——一格不满 30 条不显示指标,标「样本积累中」,攒几周再说。不足这个数,任何百分比都是噪声。
  3. 某格周流量低于它需要的样本数,就只能把那些全采,别硬凑;新渠道流量小,要在上游按渠道锁量,而不是指望总流量自然摊到它头上。

这周能做的三件事

  1. 把「点估计」从上线决策里赶出去。 下次谁拿准确率申请上线,问一句「这是点估计还是置信区间下界?」——只认下界,下界过门槛才算就绪。
  2. 把准入单元从「意图」改成「意图 × 渠道」,设 30 条地板。 不改口径,只改计数方式:每个意图×渠道各自计数、各自过闸,不满 30 条的显示「样本积累中」,绝不用一个混合数糊过闸门。
  3. 把那张「真实做对率 → 该标多少条」的表拍进评审会。 让「该标多少」变成一个由数据决定、会在门槛附近喊停的流程,而不是拍脑袋定一个死数字、或者标到没人有力气为止。

回到开头那个问题。「标多少条才够」之所以让人答不上来,是因为大多数人把它当成一道流量题,而它其实是一道「你有多大把握」的题。把标注量绑在「标到能对门槛下结论就停」上,你会同时拿到三样东西:省下的人力、一个诚实的上线闸门、以及一个会主动告诉你「别标了、该改 agent 了」的信号。

下一篇讲这套机制里最容易被当脏活、其实是 ground truth 的一环——标注本身:谁来标、怎么标、当两个人标同一条不一致到 30% 的时候,你手里的「标准答案」到底还算不算数。


这一篇如果帮你把「标多少」从拍脑袋变成一张会喊停的表,回复关键词「标注量表」,我把那张「真实做对率 → 该标多少条」对照表 + 双轨定量模板发给你。

Subscribe for updates

Get the latest AI engineering posts delivered to your inbox.

评论