Agent 上线之后 — Yaqin Hei

标多少条才够？不是流量的百分之几，是「标到能下结论就停」

「标了 50 条，96% 做对，能上线吧？」——不能，统计下界只有 86%。读完 5 分钟能识破小样本 96% 的假达标，10 分钟能看懂「标注量不按流量比例、按标到下结论就停」，20 分钟能拿到一张「真实做对率 → 该标多少条」的对照表，和一条最省人力的铁律：标注量随意图数 × 渠道数涨，不随流量涨。

上线之后，才是 agent 架构的分水岭——从你怎么抽那几百条评估样本说起

「AI 越强越不需要人」是过去两年最流行的错觉。真金白银在做 agent 的地方，标注和评估团队不减反增。读完 5 分钟能看清「能做出 demo」和「能持续做对」之间隔着什么，10 分钟能问出让评估集现原形的 3 个抽样问题，20 分钟能把自己的评估集从「随手翻 log」重画成一张分层抽样框——把退错钱、错放合规这类稀有高危事件，从「永远抽不到」拉回评估视野。

Jul 2, 2026·18分钟阅读