让 agent 越用越准,而不是越用越笨——数据飞轮怎么转起来

《Agent 上线之后》系列第六篇(收官)。 前五篇:采样、标注量、标注可信度、上线判定、静默退化。这一篇把它们连成一个会自我改进的闭环。English version: The Data Flywheel。
前五篇讲了怎么把一个 agent 送上线、又防它悄悄变笨。但那些还只是「守」。这一篇讲「攻」——怎么让每一个 badcase,变成下一版 agent 的燃料,让它越用越准。
先看一个真实的例子。标注里我们发现,开学季一到,「学生促销」相关的问题量暴涨;但把它拆细看,其中「买了送不送赠品、赠品怎么领」这一类,agent 一直没答好——不是偶尔错,是这一类系统性地答不到点上。于是我们没去动别的,就针对这一类,把知识库补全、把话术写清。下一轮,这一类的做对率就上来了。
这就是数据飞轮最朴素的样子:标注不只告诉你「对不对」,它告诉你「哪里最该修」——然后你针对性地修,让 agent 在真实用户最常撞墙的地方,一轮比一轮准。
前五篇不是五道闸,是一个轮子的五根辐条
采样、标注、评估、准入、防漂移——如果你把它们当成上线时走一遍的五道闸,你只拿到了它们一半的价值。它们真正的形态,是一个每轮都转的轮子。
生产流量 → 采样(#1 抽出该看的)→ 标注(#2/#3 标够、标准)→ 定位弱点、修复 → 准入(#4 判能不能放)→ 部署 → 盯漂移(#5 抓新问题)→ 回流成下一版。每转一圈,agent 在它最弱的地方补一刀。
没有这个轮子,第五篇说的静默退化就是默认结局(世界在变、agent 不动);有了它,方向反过来——agent 越用越准。
前五篇每一篇都是一根辐条——飞轮是把它们连成一个会自我改进的系统的那根轴。燃料你已经采集了:只是没把它当燃料用
飞轮的进料口,你在前几篇已经全建好了——unknown、分歧、拦截、低做对率,每一个都在告诉你「下一轮修什么」。
- unknown 里反复出现的新问法 → 一个该加的新意图(接意图 codebook 演进)
- 标注分歧集中的那一类 → 一个 rubric 缺口(接第三篇)
- Critic 拦截 / 误操作集中的意图 → 一个高危硬 case(接第四篇)
- 某一类做对率系统性偏低(像开学季送赠品那样)→ 一块该补的 KB / 话术
这些不用任何新埋点,前五篇的产物直接就是进料口。关键是把它们从「报表」变成「待办」:每一个信号,对应一个「下一轮修什么」,而不是发一版又一版没人动的看板。
量大不等于能治:飞轮还会逼你拆分意图
飞轮不只是往里加数据,它还会告诉你——有些意图,你得先拆开,才修得动。
再看一个真实的例子。我们的 order 相关问题量巨大,做对率却一直上不去。一开始以为是标得不够、KB 不全;拆开才发现,问题出在「order」本身是个大杂烩——里面混着 order cancel、order 状态查询、order 退款、order 退货……每一类量都很大,而每一类的正确答案、要调的接口、要走的流程都完全不同。用一个笼统的「order 意图」去答,等于用一把钥匙开四把锁,哪把都开不利索。
拆成四个意图、各自补 KB、各自定阈值、各自过闸,做对率立刻分头往上走。飞轮转到一定程度,加数据的边际收益会递减;这时它给你的信号不是「再多标点」,而是「这个意图太粗,先拆开」。 意图体系不是上线时定死的,是被飞轮一轮轮逼着长出来的。
飞轮最常见的死法:空转
大多数团队的飞轮不是不转,是空转——badcase 堆成山、报表发了一版又一版,却从没变成下一版上线的 agent。
空转的根因几乎从不是技术,是 ownership。谁有权认定「unknown 里这批新问法,是一个值得加的真新意图」?谁有权把一块补好的 KB、一版改好的 prompt,promote 到生产?这两个「谁」一旦写着「待定」,进料口再顺,数据也只会堆在待办里发霉。这跟组织架构那篇说的是同一件事:agent 项目空转,根因 90% 不在技术,在没人 own 那条链。
空转的根因几乎从不是技术,是 ownership——没人有权认定新意图、没人有权 promote fix,飞轮就只转不前。检测动作:随便挑一个上周发现的 badcase,问一句——「它现在在哪?谁负责把它变成下一版的改动?」答不出一个具体的人 + 一个具体的下一步,你的飞轮就是空转的。
这周能做的三件事
- 把一个 leading 信号接成一条「待办」。 挑 unknown 率最高、或做对率最低的那个意图,别只看报表——指定一个人,认领「下一轮修这个」。
- 找一个量大但做对率上不去的意图,试着拆开。 像 order 那样看它是不是大杂烩;能拆成几个各自可修的子意图,往往比再标 500 条更有用。
- 给飞轮定一个 owner 和一个节奏。 谁认定新意图、谁 promote fix、多久转一圈(比如两周一轮)。没有 owner 和节奏的飞轮,一定空转。
把前五篇连起来看:采样让你看见真问题,标注给你可信的标准答案,评估和准入让你不自欺地上线,防漂移让你及时发现退化——而飞轮,是把这一切连成一个会自我改进的系统的那根轴。模型决定 agent 的上限,飞轮决定它爬多快。 一个没有飞轮的 agent,最好也只是停在上线那天的水平,然后被漂移一点点拖下去;一个飞轮转起来的 agent,会在真实用户最常撞墙的地方,一轮比一轮准——越用越准,而不是越用越笨。
这就是「Agent 上线之后」的全部:上线不是终点,是这台机器开始转的起点。
这一篇如果让你决定回去挑一个 badcase、指定一个 owner 让飞轮转起来,回复关键词「数据飞轮」,我把进料口清单 + 拆分意图的判断信号 + 飞轮节奏模板发给你。
Subscribe for updates
Get the latest AI engineering posts delivered to your inbox.

