一个真的会动钱的 L2 退款 workflow,长什么样
PPT 上那张退款流程是一条干净的 8 步直线。真做出来,那条直线只占两成——其余八成是在判断「要不要走到退款这一步」。这一篇把一个真实的 L2 退款 workflow 拆开:从线性 8 步到分流树、为什么大部分代码不是退款是不退款、限额为什么必须在一张 DB 表里而不是在 prompt 里、每个外部系统没就绪的叶子为什么默认转人工。读完 25 分钟,你能拿这张骨架图去问供应商「你的退款 workflow 这几道护栏在哪」。
8 posts
PPT 上那张退款流程是一条干净的 8 步直线。真做出来,那条直线只占两成——其余八成是在判断「要不要走到退款这一步」。这一篇把一个真实的 L2 退款 workflow 拆开:从线性 8 步到分流树、为什么大部分代码不是退款是不退款、限额为什么必须在一张 DB 表里而不是在 prompt 里、每个外部系统没就绪的叶子为什么默认转人工。读完 25 分钟,你能拿这张骨架图去问供应商「你的退款 workflow 这几道护栏在哪」。
同一条退款话术,本地 curl 出来是新的,线上 curl 出来是 9 天前那句「不如淘宝京东」。源文件和线上之间,隔着一个我一直以为是自动、其实是手动的步骤。这一篇是那次排查的工程复盘:两段叠加的静默失同步根因 + 33 条测试反馈怎么聚成 16 条同根因 + 为什么看板全绿却全错 + 本周能给自己 KB 流水线加的 10 道闸。读完 20 分钟,你能在自己的「源 + 派生索引」系统里找出同一个洞。
客服 Agent 跑了 3 个月,36 个意图体系、unknown 占 40%,业务方第一反应『加点 LLM 兜底』。问题根本不在分类器——在意图体系本身。读完 5 分钟能识破『unknown 高 = 模型弱』的伪诊断,10 分钟能用四象限判定规则筛掉 80% 的伪缺失意图建议,20 分钟能拿到 corpus → codebook 的迭代流程——把意图体系从 36 稳定演进到 48,下次评审会直接拍桌上。
客服 Agent 的第一个节点是意图分类,做错这一步后面 4 个决策全白做。纯规则太脆、纯 LLM 太贵——3 级 fallback 是工程上唯一站得住的起步路径,跑到一定规模再演进到 LLM Router。读完 5 分钟能识破「我们直接用 LLM 就行」「我们 100% 规则可控」两种伪方案,10 分钟能给团队定下 3 级阈值的起步值,20 分钟能拿到 v1 → v2 升级到 LLM Router 的判断信号——下次评审拍在桌上。
老板每周收到供应商邮件:客户满意度 98%。我把原始数据拉出来——约 5% 的客户评了满意、万分之几评了不满意、95% 什么都没说,「不回应默认满意」凑出来的 98%。读完 5 分钟能看穿 4 种伪装解决率的话术,10 分钟能把团队的客服面板北极星指标重画一遍。
Critic 二次审核是 L2 客服 Agent 的兜底——但供应商展示「自动化率 95%」的方案,几乎都是 fail-open:Critic 超时就放行。读完 5 分钟能识破 fail-open 兜底的 3 类伪装,10 分钟能把团队的兜底设计重画一遍。
客服 Agent 看上去是 L3 多 Agent 编排的最佳候选,但真上线的全是 L2 deterministic workflow。一笔被自主链路误退的款,让我们看清 5 个架构决策——workflow / 意图 / 写操作兜底 / API 分层 / 评估指标——5 分钟看清方案能不能上线。
老板拍给你 28 个'智能 XX'让你今年做完,你不能全做。给你一张 28 场景优先级地图——读完 5 分钟能在下一次 AI 战略会上判断哪些是 P0、哪些等基础设施就位再上;20 分钟能给老板交出'4 个 P0 + 第一周 5 个决策'的方案。