标多少条才够?不是流量的百分之几,是「标到能下结论就停」
「标了 50 条,96% 做对,能上线吧?」——不能,统计下界只有 86%。读完 5 分钟能识破小样本 96% 的假达标,10 分钟能看懂「标注量不按流量比例、按标到下结论就停」,20 分钟能拿到一张「真实做对率 → 该标多少条」的对照表,和一条最省人力的铁律:标注量随意图数 × 渠道数涨,不随流量涨。
15 posts
「标了 50 条,96% 做对,能上线吧?」——不能,统计下界只有 86%。读完 5 分钟能识破小样本 96% 的假达标,10 分钟能看懂「标注量不按流量比例、按标到下结论就停」,20 分钟能拿到一张「真实做对率 → 该标多少条」的对照表,和一条最省人力的铁律:标注量随意图数 × 渠道数涨,不随流量涨。
「AI 越强越不需要人」是过去两年最流行的错觉。真金白银在做 agent 的地方,标注和评估团队不减反增。读完 5 分钟能看清「能做出 demo」和「能持续做对」之间隔着什么,10 分钟能问出让评估集现原形的 3 个抽样问题,20 分钟能把自己的评估集从「随手翻 log」重画成一张分层抽样框——把退错钱、错放合规这类稀有高危事件,从「永远抽不到」拉回评估视野。
老板会上那句「自助率到底要 65 还是 90」,把质和量两个轴塞进了一个数字——一笔退错钱的单子,面板上照样是 approved。读完 5 分钟能识破「自助率 95%」式的单数字汇报,10 分钟能照着搭出 9 门槛分三层的上线准入闸,20 分钟能在准入会上问出「这条红线是真对账了,还是接口没通靠转人工兜」这种让虚假绿勾当场暴露的问题。
标注交了、评测基线建了、4 个场景跑通了——项目还是空转了 3 周。复盘根因不是代码,是 RACI 表上 5 个角色写着「待定」。读完 5 分钟能识破「项目组已经组好了」的假到位,10 分钟能照着画出 Agent 落地必须新增的 3 个角色 + 一张 ownership 表,20 分钟能在立项会上问出「这条知识谁有权标过期」这类让组织缺口当场暴露的问题。
供应商提交的 PPT、AI 写的合规邮件、用 Claude 起草的内部方案——事实密集型输出里编造率 20-30% 是基线。读完 5 分钟能识破『让 LLM 自己 double-check』的伪验证,10 分钟能拿到 DRAFT → VERIFY → FINALIZE 3 阶段流程模板,20 分钟能把 7 类反复踩坑的事实错误(enum 大小写 / 招生 email / API 路径 / 模型 ID / deadline)变成 PR checklist 卡口——下次审 AI 写的材料时,每一条声明都能溯到代码或链接。
客服 Agent 跑了 3 个月,36 个意图体系、unknown 占 40%,业务方第一反应『加点 LLM 兜底』。问题根本不在分类器——在意图体系本身。读完 5 分钟能识破『unknown 高 = 模型弱』的伪诊断,10 分钟能用四象限判定规则筛掉 80% 的伪缺失意图建议,20 分钟能拿到 corpus → codebook 的迭代流程——把意图体系从 36 稳定演进到 48,下次评审会直接拍桌上。
带客服 Agent 项目这一年最常见的伪架构:『我们让 Agent 直接调订单 / 工单 / 物流 API,接了 25 个,覆盖率高』——然后问「换 OMS 供应商怎么办」答「重写」,问「Mock 联调」答「等真实接口」,问「写操作合规审计」答「自己加日志」。这是没分层。写给正在带企业 Agentic 落地的架构负责人、老板、项目需求方:5 分钟能识破「Agent 直连 API」这个最贵的架构错误,10 分钟能拍板 5 层(Adapter / Service ABC / Tool / Workflow / Critic)的职责边界,20 分钟拿到 6 大外部系统 25 个 API 的分层接入清单 + 5 个本周要推动的架构决策。
客服 Agent 的第一个节点是意图分类,做错这一步后面 4 个决策全白做。纯规则太脆、纯 LLM 太贵——3 级 fallback 是工程上唯一站得住的起步路径,跑到一定规模再演进到 LLM Router。读完 5 分钟能识破「我们直接用 LLM 就行」「我们 100% 规则可控」两种伪方案,10 分钟能给团队定下 3 级阈值的起步值,20 分钟能拿到 v1 → v2 升级到 LLM Router 的判断信号——下次评审拍在桌上。
带客服 Agent 项目这一年最常被「pytest 全绿、覆盖率 79%」糊弄过去的事——然后老板问『回答忠实度多少』,没人答得上来。AI 系统的「测过了」根本不是传统软件的「测过了」。这一篇写给正在带企业 Agentic 落地的架构负责人、老板、项目需求方:读完 5 分钟能识破「pytest 全绿就能上线」、10 分钟能拍板「QA 接哪 4 块、AI 运维管哪 3 块、dev 留哪 8 块」、20 分钟能拿到 7 质量维度阈值表 + 3 级评测节奏 + 5 件这周可以推动的事——直接带进下次架构评审会。
评审会上总有人问「为什么 Skills 没有像 MCP 那样的统一协议?我们怎么落地?」——这个问题问反了:等不到协议不是坏事,是你已经可以开始的信号。读完 5 分钟能识破「知识库写满 SOP 就当 Agent 落地了」的方案,10 分钟能用一个 3 行的测试把方案里的「假 Skill」全揪出来,20 分钟能给团队画一张企业内部 Skill 定义规范。
老板每周收到供应商邮件:客户满意度 98%。我把原始数据拉出来——约 5% 的客户评了满意、万分之几评了不满意、95% 什么都没说,「不回应默认满意」凑出来的 98%。读完 5 分钟能看穿 4 种伪装解决率的话术,10 分钟能把团队的客服面板北极星指标重画一遍。
老板给客服 Agent 的 Critic 设计打了个 B,理由是「这是 Apple 才需要的,我们不是 Apple」——这是 AI Agent 落地最贵的误会。读完 5 分钟能识破「上线即放养」方案的 6 个空洞,10 分钟能在评审会上问出供应商答不上的 4 个问题。
Critic 二次审核是 L2 客服 Agent 的兜底——但供应商展示「自动化率 95%」的方案,几乎都是 fail-open:Critic 超时就放行。读完 5 分钟能识破 fail-open 兜底的 3 类伪装,10 分钟能把团队的兜底设计重画一遍。
客服 Agent 看上去是 L3 多 Agent 编排的最佳候选,但真上线的全是 L2 deterministic workflow。一笔被自主链路误退的款,让我们看清 5 个架构决策——workflow / 意图 / 写操作兜底 / API 分层 / 评估指标——5 分钟看清方案能不能上线。
我审了 28 个企业 AI 项目,只有 5 个是真 Agent——其余要么是「加了 LLM 的自动化」,要么是 PPT。这把 4 级尺子(L0–L3)帮你 5 分钟判断真假 Agent,20 分钟给项目组合定级。