标多少条才够?不是流量的百分之几,是「标到能下结论就停」
「标了 50 条,96% 做对,能上线吧?」——不能,统计下界只有 86%。读完 5 分钟能识破小样本 96% 的假达标,10 分钟能看懂「标注量不按流量比例、按标到下结论就停」,20 分钟能拿到一张「真实做对率 → 该标多少条」的对照表,和一条最省人力的铁律:标注量随意图数 × 渠道数涨,不随流量涨。
Jul 3, 2026·16分钟阅读
2 posts
「标了 50 条,96% 做对,能上线吧?」——不能,统计下界只有 86%。读完 5 分钟能识破小样本 96% 的假达标,10 分钟能看懂「标注量不按流量比例、按标到下结论就停」,20 分钟能拿到一张「真实做对率 → 该标多少条」的对照表,和一条最省人力的铁律:标注量随意图数 × 渠道数涨,不随流量涨。
「AI 越强越不需要人」是过去两年最流行的错觉。真金白银在做 agent 的地方,标注和评估团队不减反增。读完 5 分钟能看清「能做出 demo」和「能持续做对」之间隔着什么,10 分钟能问出让评估集现原形的 3 个抽样问题,20 分钟能把自己的评估集从「随手翻 log」重画成一张分层抽样框——把退错钱、错放合规这类稀有高危事件,从「永远抽不到」拉回评估视野。