组织架构图才是真正的架构图:Agent 项目空转,根因 90% 不在技术|Agentic AI 落地方法论(十二)

《Agentic AI 落地方法论》系列第十二篇。 前 11 篇全在拆「系统怎么建对」——L0-L3 定级、L2 vs L3 架构决策、Critic fail-closed、上线即放养、接住率 vs 解决率、Skills vs 知识库、双轨测试、3 级 intent 级联、五层 API 架构、Intent codebook 演进、第二个 Agent 当审稿人。这一篇拆系统之外的那张图——为什么技术全做对了,项目还是会卡死,以及落地一个企业级 Agent 到底要动哪几块组织架构。English version: The Org Chart Is the Real Architecture Diagram.
标注交了、基线建了、场景跑通了——然后项目空转了 3 周
我带的一个零售客服 Agent 项目,去年有过一段莫名其妙的停滞。
技术侧其实很顺:4 个场景的 workflow + Critic 跑通了,意图标注样本 1,102 条交付了,评测基线 310 条建好了,意图路由覆盖 36 个 intent。该有的零件都在。
然后项目停了 3 周。进度看板上一行字始终是灰的:知识库审核(364 条高频条目)——未启动。
技术团队问业务团队:什么时候开始审?业务团队问技术团队:这事不是你们做吗?我去翻 RACI 表,发现「知识库审核」这一栏的 owner 写着两个字:待定。再往下看,「客服运营 Lead」「知识 Owner」「标注复核」——5 个角色,全是待定。
先把结论摆桌面上:Agent 落地失败,技术问题排第三。第一是没人 own,第二是 KPI 不落到人头。 我带过的客服 Agent 项目里,技术卡死的次数,远少于「某个东西没人负责所以整条流水线停在那」的次数。
那 3 周不是技术债,是组织债。这一篇就把这笔债算清楚——你的 Agent 项目里,组织架构这张图,比系统架构图更可能是那个卡死点。
Agent 不是上线一个系统,是上线一个要每天喂养的器官
传统软件项目的组织节奏,所有人都熟:开发 → 测试 → 上线 → 运维。运维是被动的——不出故障没人动它,出了故障救火。项目结束,团队解散,转下一个。
Agent 项目套这个节奏,必死。
原因是 Agent 上线那天不是终点,是新陈代谢的起点:
- 知识每天变——退换货政策改一版,几百条知识全要重审、过期、替换
- 意图每周长——用户问出训练集里没有的新问法,codebook 从 36 个 intent 涨到 48 个是常态(这件事系列十整篇在讲)
- 模型每月迭代——换模型、改 prompt、调阈值,每次都要重跑评测、重新灰度
把 Agent 当系统,你会在上线后解散团队;把 Agent 当器官,你会发现它需要的角色,项目立项时的组织架构图上一个都没有。项目制管的是「把它建出来」,运营制管的是「让它活下去」——这两件事需要的不是同一批人,更不是同一套问责。
这就是为什么技术全做对了项目还会空转:建系统的人交付完就走了,喂养系统的角色还没被任命。
落地一个企业级 Agent,至少要新增 3 个角色
不是加 3 个人头,是明确 3 个职责落到具体名字的角色。我那个空转 3 周的项目,根因就是这 3 个角色全挂在「待定」上。
角色一:知识 Owner(知识中心负责人)。
他 own 知识库的整条生命周期:草稿 → 标注 → 审核 → 上线 → 过期。也 own 一件最容易被忽略的事——知识库的字段枚举(sub_topic、channel)跟技术团队的 codebook 保持同步。
没有这个角色会怎样?我见过最贵的一次:一批知识录入时,51% 的条目因为缺意图字段无法入库。不是知识写错了,是没人定「录入前必须填哪几个字段」这条规矩,更没人卡在 UI 上强制它。100 条审过的知识,最后只有 61 条真正进了系统。
侦测信号: 问对方「你们知识库里,谁有权把一条知识标成『过期』?」——答不出一个具体的人名,就是没有知识 Owner。
角色二:客服运营 Lead(CS 运营协调人)。
他 own bad case 的三级分诊、升级路由、UAT 执行、灰度评审。灰度到 50% 之后,每天至少 5 个 bad case 要有人看——是意图错了?知识错了?还是生成错了?这个判断必须有人拍板。
我那个项目空转的直接原因就是这个角色没人坐。复盘纪要上我写了一句话:「客服运营 Lead 必须有人 own,这是当前空转的根本原因之一。」标注样本明明交付了,下游没人接,整条流水线就停在那。
侦测信号: 问「上周的 bad case,谁拉的会、谁定的责任归属?」——如果答案是「大家一起看看」,等于没人看。
角色三:标注工程师 + 双审机制。
一审做分类(intent / channel / 层级),二审由客服主管做业务正确性 sign-off。两道关,因为分类对不等于业务对——技术标注员能判断「这条属于退货意图」,但判断不了「这条退货政策在抖音渠道到底成不成立」。
没有双审,taxonomy 会打架:同一类问题,这个标注员归 A 意图,那个归 B 意图,下游模型学到的是矛盾信号。
三个角色不是三个新增编制,是三份必须落到具体名字的职责。每个角色下方是一句立项会上就能问的侦测信号。点击图片查看原图。这 3 个角色有一个共同点:都跨在「业务」和「技术」的缝里。正因为跨缝,传统组织架构图上没有它们的位置,于是默认没人认领,于是项目空转。
一张 ownership 表:谁 own 什么,写不出来就是没想清楚
3 个角色解决「谁来喂养」,但真正天天打架的是「同一个东西到底归谁」。立项时把下面这张表填满——填不出来的格子,就是未来空转的地方。
| 资产 / 职责 | SoT(唯一权威)owner | 消费方 / 协作方 | 最常打架的边界 |
|---|---|---|---|
| Intent codebook(意图 + action 枚举) | 技术团队 | 知识中心同步枚举 | 加一个新意图,谁先改、谁跟着改 |
| 知识库内容 + 版本 + 审批 | 知识中心 | Agent 只读本地副本 | 知识中心改了,Agent 多久同步到 |
| Embedding(向量化) | 知识中心统一做 | Agent 直接消费,不重复 embed | 谁做 embedding——两边各做一套向量空间对不上 |
| 检索 API(POST /kb/search) | 知识中心 | Agent 调用 | SLA 谁保证(P99 低于 500ms、99.9% 可用) |
| Bad case 裁决 | 客服运营 Lead | 技术团队 + QA 配合 | 到底是业务规则错还是系统 bug |
| 资损 / 合规事件响应 | 技术 Lead + 安全 | 升级到业务 Owner → 老板 | P1 多久响应(2 小时)、谁有权下线 |
这张表里我踩过最深的坑是第三行:embedding 谁做。知识中心和 Agent 各自 embed 一套,结果两套向量空间对不上,检索结果牛头不对马嘴,排查了很久才发现是「同一句话被两个模型编码成了两个向量」。最后定死一条规矩:知识中心是 SoT,所有文档和 query 的 embedding 都在知识中心这一侧做,Agent 只读、不重复 embed。
知识中心是数据 SoT,Agent 是消费方持只读副本。中间那条粗线就是组织边界——线划不清,向量空间、同步时延、入库校验三处都会出问题。点击图片查看原图。这张表的本质,是把「架构决策」翻译成「人的决策」。 系统架构图画的是数据怎么流;ownership 表画的是数据流的每一段归谁负责。前者不缺,后者几乎所有项目都缺——而真正让项目停摆的是后者。
KPI 不落到人头,自动化率就是一句空话
角色和 ownership 都对齐了,还差最后一块:KPI 归谁背。
我翻那个项目的 RACI 表时,最刺眼的不是「待定」的角色,是 KPI 那一栏——全是空的:
| KPI | Owner | Approver |
|---|---|---|
| 自动化解决率 高于 65% | ☐ 待指定 | ☐ 待指定 |
| 年省工时 25,000 小时 | ☐ 待指定 | ☐ 待指定 |
| 零资损 | ☐ 待指定 | ☐ 待指定 |
| CSAT 不下降 | ☐ 待指定 | ☐ 待指定 |
一个没有 owner 的 KPI,等于没有人为这个数字负责。「自动化解决率 65%」写在 PPT 上很漂亮,但没人背它的时候,它就只是 PPT 上的一行字——上线第一个月达没达标没人追,第六个月掉到 40% 也没人报警。
这件事和系列四「上线即放养」是同一个病根的两个症状:那一篇讲「没有角色为『6 个月后系统还活着』负责」,这一篇讲「没有角色为『那个数字』负责」。5 个角色 5 个目标,没有一个目标挂在「系统长期健康」上——这不是技术问题,是问责结构的洞。
KPI 落到人头有个硬标准:每个 KPI 必须有一个 owner(背数字的)和一个 approver(认数字的),两个名字,缺一个都算没落地。 填不出 approver,说明这个 KPI 老板自己都没真正认领。
立项会上就把组织缺口逼出来:5 个问题 + 升级链
前面都是诊断,这一节给你能在下次立项会上直接用的工具。组织缺口最好在立项时暴露,而不是上线后空转 3 周才发现。
立项 5 问(任意一个答不出具体名字 = 缺口):
- 知识库里,谁有权把一条知识标成过期?(→ 知识 Owner 在不在)
- 上线后第一个 bad case,谁拉会、谁定责任归属?(→ 客服运营 Lead 在不在)
- 加一个新意图,技术和知识中心谁先改、谁跟着改?(→ codebook ownership 清不清)
- 自动化解决率这个 KPI,谁背、谁认?(→ KPI 落没落到人头)
- 出一笔误退款,2 小时内谁有权把 Agent 下线?(→ 升级链通不通)
第 5 问连着升级链。Agent 会动钱、会发错政策,升级链必须在上线前画死,不能等事故来了现攒:
执行层(阻塞超 1 天)
→ 责任人 / 技术 Lead(阻塞超 3 天或跨团队)
→ 项目协调人
→ 业务 Owner(需业务决策或资源)
→ 老板(需战略或跨部门)
资损 / 合规事件特殊通道:
P1(资损风险 / 合规预警)→ 2 小时内,技术 Lead + 安全
P2(潜在问题)→ 1 个工作日,技术 Lead
配套的还有会议机制——不用复杂,3 个固定会就够托住运营节奏:每周业务评审(业务 Owner + 客服 + 技术对齐规则)、每周 bad case 评审(客服 + 技术 + QA 看上周的错)、双周老板对齐(让背 KPI 的人定期对账)。
这些不是官僚流程,是给「持续喂养」装上的传动轴。没有这几个会,3 个新角色各干各的,照样空转。
5 条自检——你的 Agent 项目是不是正在空转
把下面 5 条拿到下次复盘会上对一遍。任意一条 yes,组织债已经在累积:
- 知识库审核 / 维护这件事,说不出一个具体的 owner 名字——没有知识 Owner
- 上线后的 bad case,没有固定的人拉会定责——没有客服运营 Lead
- 意图 / 知识的字段枚举,技术和业务各维护一套,对不上——没有 ownership 边界
- 核心 KPI 的 owner / approver 栏是空的,或者写着「项目组」——KPI 没落到人头
- 升级链画不出来,「Agent 出事谁有权下线」答不上——没有治理结构
5 条里 0 条 yes,组织架构这关你过了。3 条以上 yes,技术做得再对,项目大概率会卡在某个「没人负责」的环节上。
写在最后:先画对人的图,再画对系统的图
系统架构图我们都很会画——数据怎么流、API 怎么分层、Critic 怎么兜底,前 11 篇拆得很细。但 Agent 落地真正卡死的地方,往往不在那张图上。
卡死点在另一张图:谁 own 知识库、谁背自动化率、谁有权下线、谁审 bad case。这张图画不出来,系统建得再漂亮,也会在某个「待定」的格子上停 3 周。
组织架构图才是真正的架构图。 因为 Agent 不是一个上线就结束的系统,是一个需要常设角色每天喂养的器官——器官需要的不是建造者,是主治医生。立项时把人的图画对,比把系统的图画对,更早决定项目的生死。
下次立项会,先别急着看技术方案。先把那张 ownership 表拍在桌上,一格一格问:这个,谁 own?
工具包领取
如果你想把这一篇的工具立刻用到下次立项会,我整理了一个 PDF 工具包:
回复关键词「组织架构图」,我把工具包发给你:
- RACI + ownership 表模板(一页 A4,立项会上一格一格填)
- 3 个新角色的职责清单(知识 Owner / 客服运营 Lead / 标注双审,可直接贴进 JD)
- 立项 5 问 + 升级链模板(带 P1/P2 响应时限,照着画死)
这一年跟项目踩出来的判断工具,送给读到这里的你。
回复渠道见页脚(公众号 / X)。不方便回复的,评论区留邮箱也行。
Subscribe for updates
Get the latest AI engineering posts delivered to your inbox.



