上线之后,才是 agent 架构的分水岭——从你怎么抽那几百条评估样本说起「AI 越强越不需要人」是过去两年最流行的错觉。真金白银在做 agent 的地方,标注和评估团队不减反增。读完 5 分钟能看清「能做出 demo」和「能持续做对」之间隔着什么,10 分钟能问出让评估集现原形的 3 个抽样问题,20 分钟能把自己的评估集从「随手翻 log」重画成一张分层抽样框——把退错钱、错放合规这类稀有高危事件,从「永远抽不到」拉回评估视野。Jul 2, 2026·18分钟阅读