客服Agent

15 posts

一个漂亮的做对率，盖住了几十个会动钱的错——上线判定该怎么读数

我带过的一个资损项目，总做对率报得很好；可把资损意图单独拆出来一算，误操作率高得吓人，几十个会动钱的错一直留着——一个总数把它们全藏住了。读完 5 分钟能识破「一个准确率申请上线」的陷阱，10 分钟能给会动钱的错单独设一道盯误操作率的闸，20 分钟能搭出「看 CI 下界 + 逐场景切旧账 + 分渠道放量」的上线判定流程。

Jul 5, 2026·17分钟阅读

让 agent 越用越准，而不是越用越笨——数据飞轮怎么转起来

标注里我们发现开学季促销问的人巨多，但其中「送赠品怎么领」一直没答好——于是针对性补了 KB，下一轮这类就上来了。这就是数据飞轮。读完 5 分钟能看清前五篇其实是一个轮子的五根辐条，10 分钟能识破「飞轮空转」(数据堆成山却从不 ship)的根因，20 分钟能拿到一套按频率×代价排序、还会逼你拆分意图的回流流程。

Jul 5, 2026·16分钟阅读

看板全绿，agent 却在悄悄变笨——上线之后的静默退化

在一家消费级科技公司做客服 Agent，我盯指标盯出一个反直觉的认知：它从来不是一条平线。每次新品发布、每个开学季，问题分布就变、涌现一批新问法，agent 悄悄变笨——而 CPU / QPS / 延迟全绿的看板上一个像素都看不到。读完 5 分钟能识破「看板绿 = 健康」的错觉，10 分钟能列出 6 个比客诉早几周报警的 leading 信号，20 分钟能把评估集从「冻在上线那天」改成持续从当前流量重抽。

Jul 5, 2026·17分钟阅读

标注是 ground truth——「换个大半码」这一句，两个客服能标出三个答案

客户一句「想换个大半码」，埋着四个必须判的分叉：换货还是退货、走不走物流拦截、要不要补差价、按哪个价补。两个熟练客服背对背标同一批 50 条，只对上 35——你那个 96% 准确率，是拿一把 70% 自相矛盾的尺子量出来的。读完 20 分钟能拿到一套先测一致率、再把「补差价按哪个价」这类写进 rubric 的落地流程。

Jul 4, 2026·17分钟阅读

标了 50 条、96% 做对，能上线吗？——标注量该看 CI 下界，不看那个漂亮数字

「标了 50 条，96% 做对，能上线吧？」——不能，统计下界只有 86%。我给客服 Agent 设计标注准入时，第一条拍死的规则就是：看置信区间下界，不看点估计。读完 5 分钟能识破小样本 96% 的假达标，10 分钟能拿到一张「真实做对率 → 该标多少条」的爆炸表，20 分钟能搭出一套 CI 停止准则——该多标的多标、达标的别浪费、标到某个点该停手回去改 agent。

Jul 3, 2026·16分钟阅读

随机抽样报的 96%，按渠道一拆就红了——评估集抽样的两种致命失效

供应商随机抽 200 条报「准确率 96%」。我把这 200 条按渠道拆开，抖音公域那格里差价类几乎全错——大流量的私域把它稀释成了漂亮数字。读完 5 分钟能识破随机抽样的两种失效（漏长尾 + 大渠道稀释小渠道），10 分钟能问出让评估集现原形的抽样问题，20 分钟能拿到一张渠道下钻 + 风险层过采样的分层抽样框。

Jul 2, 2026·18分钟阅读

CPU 没满、QPS 没涨，P99 却翻倍——是运维看板在偷偷掐住客服 Agent

一条周期性的 P99 尖峰，每隔几分钟准时来一次，但 CPU、QPS、错误率全是平的，Agent 代码一行没改。所有人第一反应都是「ES 检索慢了」——查了一圈，ES 全是 async，干净得很。真凶是另一个你绝不会去怀疑的地方：那个用来观测 Agent 的运维看板，自己把 Agent 掐住了。这一篇是那次排查的工程复盘：单线程 event loop 上一个同步调用怎么冻住全员、怎么把尖峰时间戳对齐到看板刷新、两行修复（to_thread + TTL cache）、以及本周能给自己 async 服务装的 10 个 event-loop 探针。读完 20 分钟，你能在自己的服务里抓出同一类「一个同步调用拖垮一整个 loop」的洞。

Jun 10, 2026·20分钟阅读

一个真的会动钱的 L2 退款 workflow，长什么样

PPT 上那张退款流程是一条干净的 8 步直线。真做出来，那条直线只占两成——其余八成是在判断「要不要走到退款这一步」。这一篇把一个真实的 L2 退款 workflow 拆开：从线性 8 步到分流树、为什么大部分代码不是退款是不退款、限额为什么必须在一张 DB 表里而不是在 prompt 里、每个外部系统没就绪的叶子为什么默认转人工。读完 25 分钟，你能拿这张骨架图去问供应商「你的退款 workflow 这几道护栏在哪」。

Jun 3, 2026·25分钟阅读

源文件改了，线上没变——一次 KB 静默失同步的 9 天

同一条退款话术，本地 curl 出来是新的，线上 curl 出来是 9 天前那句「不如淘宝京东」。源文件和线上之间，隔着一个我一直以为是自动、其实是手动的步骤。这一篇是那次排查的工程复盘：两段叠加的静默失同步根因 + 33 条测试反馈怎么聚成 16 条同根因 + 为什么看板全绿却全错 + 本周能给自己 KB 流水线加的 10 道闸。读完 20 分钟，你能在自己的「源 + 派生索引」系统里找出同一个洞。

Jun 3, 2026·20分钟阅读

你以为定义好的意图够用了——1102 条样本里有 800 条说『不』｜Agentic AI 落地方法论（十）

客服 Agent 跑了 3 个月，36 个意图体系、unknown 占 40%，业务方第一反应『加点 LLM 兜底』。问题根本不在分类器——在意图体系本身。读完 5 分钟能识破『unknown 高 = 模型弱』的伪诊断，10 分钟能用四象限判定规则筛掉 80% 的伪缺失意图建议，20 分钟能拿到 corpus → codebook 的迭代流程——把意图体系从 36 稳定演进到 48，下次评审会直接拍桌上。

May 28, 2026·14分钟阅读

意图分类（intent classification）怎么做：规则 / Embedding / LLM 三级级联怎么定阈值

客服 Agent 的第一个节点是意图分类，做错这一步后面 4 个决策全白做。纯规则太脆、纯 LLM 太贵——3 级 fallback 是工程上唯一站得住的起步路径，跑到一定规模再演进到 LLM Router。读完 5 分钟能识破「我们直接用 LLM 就行」「我们 100% 规则可控」两种伪方案，10 分钟能给团队定下 3 级阈值的起步值，20 分钟能拿到 v1 → v2 升级到 LLM Router 的判断信号——下次评审拍在桌上。

May 25, 2026·16分钟阅读

接住率 vs 解决率：客服 AI 唯一值得当北极星的指标（98% 满意度是怎么算出来的）

老板每周收到供应商邮件：客户满意度 98%。我把原始数据拉出来——约 5% 的客户评了满意、万分之几评了不满意、95% 什么都没说，「不回应默认满意」凑出来的 98%。读完 5 分钟能看穿 4 种伪装解决率的话术，10 分钟能把团队的客服面板北极星指标重画一遍。

May 22, 2026·16分钟阅读

自动化率 70% 的 Critic 比 95% 的更值钱——fail-closed 设计深挖｜Agentic AI 落地方法论（三）

Critic 二次审核是 L2 客服 Agent 的兜底——但供应商展示「自动化率 95%」的方案，几乎都是 fail-open：Critic 超时就放行。读完 5 分钟能识破 fail-open 兜底的 3 类伪装，10 分钟能把团队的兜底设计重画一遍。

May 17, 2026·22分钟阅读

5 个架构决策，决定你的客服 Agent 能不能上线——为什么必须做成 L2，而不是 L3｜Agentic AI 落地方法论（二）

客服 Agent 看上去是 L3 多 Agent 编排的最佳候选，但真上线的全是 L2 deterministic workflow。一笔被自主链路误退的款，让我们看清 5 个架构决策——workflow / 意图 / 写操作兜底 / API 分层 / 评估指标——5 分钟看清方案能不能上线。

May 16, 2026·18分钟阅读

零售 AI 智能体落地手册（一）：28 个「智能 XX」清单，先做哪 4 个

老板拍给你 28 个'智能 XX'让你今年做完，你不能全做。给你一张 28 场景优先级地图——读完 5 分钟能在下一次 AI 战略会上判断哪些是 P0、哪些等基础设施就位再上；20 分钟能给老板交出'4 个 P0 + 第一周 5 个决策'的方案。

Feb 28, 2026·20分钟阅读