一个真的会动钱的 L2 退款 workflow,长什么样
PPT 上那张退款流程是一条干净的 8 步直线。真做出来,那条直线只占两成——其余八成是在判断「要不要走到退款这一步」。这一篇把一个真实的 L2 退款 workflow 拆开:从线性 8 步到分流树、为什么大部分代码不是退款是不退款、限额为什么必须在一张 DB 表里而不是在 prompt 里、每个外部系统没就绪的叶子为什么默认转人工。读完 25 分钟,你能拿这张骨架图去问供应商「你的退款 workflow 这几道护栏在哪」。
PPT 上那张退款流程是一条干净的 8 步直线。真做出来,那条直线只占两成——其余八成是在判断「要不要走到退款这一步」。这一篇把一个真实的 L2 退款 workflow 拆开:从线性 8 步到分流树、为什么大部分代码不是退款是不退款、限额为什么必须在一张 DB 表里而不是在 prompt 里、每个外部系统没就绪的叶子为什么默认转人工。读完 25 分钟,你能拿这张骨架图去问供应商「你的退款 workflow 这几道护栏在哪」。
同一条退款话术,本地 curl 出来是新的,线上 curl 出来是 9 天前那句「不如淘宝京东」。源文件和线上之间,隔着一个我一直以为是自动、其实是手动的步骤。这一篇是那次排查的工程复盘:两段叠加的静默失同步根因 + 33 条测试反馈怎么聚成 16 条同根因 + 为什么看板全绿却全错 + 本周能给自己 KB 流水线加的 10 道闸。读完 20 分钟,你能在自己的「源 + 派生索引」系统里找出同一个洞。
老板会上那句「自助率到底要 65 还是 90」,把质和量两个轴塞进了一个数字——一笔退错钱的单子,面板上照样是 approved。读完 5 分钟能识破「自助率 95%」式的单数字汇报,10 分钟能照着搭出 9 门槛分三层的上线准入闸,20 分钟能在准入会上问出「这条红线是真对账了,还是接口没通靠转人工兜」这种让虚假绿勾当场暴露的问题。
标注交了、评测基线建了、4 个场景跑通了——项目还是空转了 3 周。复盘根因不是代码,是 RACI 表上 5 个角色写着「待定」。读完 5 分钟能识破「项目组已经组好了」的假到位,10 分钟能照着画出 Agent 落地必须新增的 3 个角色 + 一张 ownership 表,20 分钟能在立项会上问出「这条知识谁有权标过期」这类让组织缺口当场暴露的问题。
供应商提交的 PPT、AI 写的合规邮件、用 Claude 起草的内部方案——事实密集型输出里编造率 20-30% 是基线。读完 5 分钟能识破『让 LLM 自己 double-check』的伪验证,10 分钟能拿到 DRAFT → VERIFY → FINALIZE 3 阶段流程模板,20 分钟能把 7 类反复踩坑的事实错误(enum 大小写 / 招生 email / API 路径 / 模型 ID / deadline)变成 PR checklist 卡口——下次审 AI 写的材料时,每一条声明都能溯到代码或链接。
客服 Agent 跑了 3 个月,36 个意图体系、unknown 占 40%,业务方第一反应『加点 LLM 兜底』。问题根本不在分类器——在意图体系本身。读完 5 分钟能识破『unknown 高 = 模型弱』的伪诊断,10 分钟能用四象限判定规则筛掉 80% 的伪缺失意图建议,20 分钟能拿到 corpus → codebook 的迭代流程——把意图体系从 36 稳定演进到 48,下次评审会直接拍桌上。
带客服 Agent 项目这一年最常见的伪架构:『我们让 Agent 直接调订单 / 工单 / 物流 API,接了 25 个,覆盖率高』——然后问「换 OMS 供应商怎么办」答「重写」,问「Mock 联调」答「等真实接口」,问「写操作合规审计」答「自己加日志」。这是没分层。写给正在带企业 Agentic 落地的架构负责人、老板、项目需求方:5 分钟能识破「Agent 直连 API」这个最贵的架构错误,10 分钟能拍板 5 层(Adapter / Service ABC / Tool / Workflow / Critic)的职责边界,20 分钟拿到 6 大外部系统 25 个 API 的分层接入清单 + 5 个本周要推动的架构决策。
带客服 Agent 项目这一年最常被「pytest 全绿、覆盖率 79%」糊弄过去的事——然后老板问『回答忠实度多少』,没人答得上来。AI 系统的「测过了」根本不是传统软件的「测过了」。这一篇写给正在带企业 Agentic 落地的架构负责人、老板、项目需求方:读完 5 分钟能识破「pytest 全绿就能上线」、10 分钟能拍板「QA 接哪 4 块、AI 运维管哪 3 块、dev 留哪 8 块」、20 分钟能拿到 7 质量维度阈值表 + 3 级评测节奏 + 5 件这周可以推动的事——直接带进下次架构评审会。
客服 Agent 的第一个节点是意图分类,做错这一步后面 4 个决策全白做。纯规则太脆、纯 LLM 太贵——3 级 fallback 是工程上唯一站得住的起步路径,跑到一定规模再演进到 LLM Router。读完 5 分钟能识破「我们直接用 LLM 就行」「我们 100% 规则可控」两种伪方案,10 分钟能给团队定下 3 级阈值的起步值,20 分钟能拿到 v1 → v2 升级到 LLM Router 的判断信号——下次评审拍在桌上。
评审会上总有人问「为什么 Skills 没有像 MCP 那样的统一协议?我们怎么落地?」——这个问题问反了:等不到协议不是坏事,是你已经可以开始的信号。读完 5 分钟能识破「知识库写满 SOP 就当 Agent 落地了」的方案,10 分钟能用一个 3 行的测试把方案里的「假 Skill」全揪出来,20 分钟能给团队画一张企业内部 Skill 定义规范。
老板每周收到供应商邮件:客户满意度 98%。我把原始数据拉出来——约 5% 的客户评了满意、万分之几评了不满意、95% 什么都没说,「不回应默认满意」凑出来的 98%。读完 5 分钟能看穿 4 种伪装解决率的话术,10 分钟能把团队的客服面板北极星指标重画一遍。
老板给客服 Agent 的 Critic 设计打了个 B,理由是「这是 Apple 才需要的,我们不是 Apple」——这是 AI Agent 落地最贵的误会。读完 5 分钟能识破「上线即放养」方案的 6 个空洞,10 分钟能在评审会上问出供应商答不上的 4 个问题。
Critic 二次审核是 L2 客服 Agent 的兜底——但供应商展示「自动化率 95%」的方案,几乎都是 fail-open:Critic 超时就放行。读完 5 分钟能识破 fail-open 兜底的 3 类伪装,10 分钟能把团队的兜底设计重画一遍。
客服 Agent 看上去是 L3 多 Agent 编排的最佳候选,但真上线的全是 L2 deterministic workflow。一笔被自主链路误退的款,让我们看清 5 个架构决策——workflow / 意图 / 写操作兜底 / API 分层 / 评估指标——5 分钟看清方案能不能上线。
Agent 概念已被严重滥用:销售、老板、工程师、媒体嘴里的 Agent 是四种东西。本文给一把 4 级分级尺子(L0-L3)——1 个判断标准、5 个自查问题、3 个对照案例、28 个零售场景实战分级。读完 5 分钟能识破假 Agent 营销话术,20 分钟能给整个项目组合定级。
一个独立开发者的真实记录:从 Python 脚本到完整产品,用 Claude Code 把公众号创作从 4 小时压缩到 30 分钟的全过程。包含技术选型、架构设计、微信 API 踩坑实录。
老板拍给你 28 个'智能 XX'让你今年做完,你不能全做。给你一张 28 场景优先级地图——读完 5 分钟能在下一次 AI 战略会上判断哪些是 P0、哪些等基础设施就位再上;20 分钟能给老板交出'4 个 P0 + 第一周 5 个决策'的方案。
读完 5 分钟能在下次架构评审会上判断供应商的方案是不是'把文档丢进向量库'糊弄;20 分钟能交一份'知识库分三层 + 模型选 B 不选 A + 四块成本估算'的技术方案,含每块成本的可控变量。
上线只是开始,运维才是胜负手。读完 5 分钟能在下次复盘会上判断你的 AI 项目是不是在悄悄劣化;20 分钟能拿到一份'6 KPI + Critic 伪代码 + 减员 5 前置条件 + 30 天行动计划'的完整 SOP——从签约到 Alpha 上线每一天该做什么。
读完 8 分钟,能判断你公司用的 AI 工具背后的伦理姿态算资产还是合规风险,能在下次会上一句话说清 Anthropic 的 No 和 xAI 的 Yes 差在哪——以及你的 Claude Code 为什么也被绑在这场博弈里。
在生产对话 AI 系统 sequential 微调 52 个产品域,每加一个新域,前面所有域 NLU F1 平均掉 1-2 分,BWT 累积到 -7.2。我设计 Dual-Replay 把 BWT 拉回 -4.7(forgetting 减 35%),用 9M adapter 参数(base 的 0.3%)+ 20% dual-stream replay,p99 延迟稳在 100ms 以下。读完 5 分钟能在 PEFT 持续学习方案评审会上判断什么是真改进;30 分钟能拿到 5 种生产场景特有的 forgetting 失败模式 + 评审供应商方案的 5 个必问问题。
我设计了一个 ITSM Agent 研究环境,用真实的 ServiceNow 工单数据 fit。DQN 和 PPO 训练 60,000 步后,两种算法都达到 100% hacking 率——所有工单都用某种作弊姿势处理,零真实解决。这一篇是那段研究的工程视角复盘:6 种 ITSM 场景特有的 reward hacking 模式 + 为什么你的看板抓不到 + 本周工程团队可以做的 10 件事。