← All posts

Agentic AI

19 posts

源文件改了,线上没变——一次 KB 静默失同步的 9 天

同一条退款话术,本地 curl 出来是新的,线上 curl 出来是 9 天前那句「不如淘宝京东」。源文件和线上之间,隔着一个我一直以为是自动、其实是手动的步骤。这一篇是那次排查的工程复盘:两段叠加的静默失同步根因 + 33 条测试反馈怎么聚成 16 条同根因 + 为什么看板全绿却全错 + 本周能给自己 KB 流水线加的 10 道闸。读完 20 分钟,你能在自己的「源 + 派生索引」系统里找出同一个洞。

Jun 3, 2026·20分钟阅读

一个真的会动钱的 L2 退款 workflow,长什么样

PPT 上那张退款流程是一条干净的 8 步直线。真做出来,那条直线只占两成——其余八成是在判断「要不要走到退款这一步」。这一篇把一个真实的 L2 退款 workflow 拆开:从线性 8 步到分流树、为什么大部分代码不是退款是不退款、限额为什么必须在一张 DB 表里而不是在 prompt 里、每个外部系统没就绪的叶子为什么默认转人工。读完 25 分钟,你能拿这张骨架图去问供应商「你的退款 workflow 这几道护栏在哪」。

Jun 3, 2026·25分钟阅读

自助率 ≠ 做对率:上线前到底卡哪几道闸|Agentic AI 落地方法论(十三)

老板会上那句「自助率到底要 65 还是 90」,把质和量两个轴塞进了一个数字——一笔退错钱的单子,面板上照样是 approved。读完 5 分钟能识破「自助率 95%」式的单数字汇报,10 分钟能照着搭出 9 门槛分三层的上线准入闸,20 分钟能在准入会上问出「这条红线是真对账了,还是接口没通靠转人工兜」这种让虚假绿勾当场暴露的问题。

Jun 2, 2026·15分钟阅读

组织架构图才是真正的架构图:Agent 项目空转,根因 90% 不在技术|Agentic AI 落地方法论(十二)

标注交了、评测基线建了、4 个场景跑通了——项目还是空转了 3 周。复盘根因不是代码,是 RACI 表上 5 个角色写着「待定」。读完 5 分钟能识破「项目组已经组好了」的假到位,10 分钟能照着画出 Agent 落地必须新增的 3 个角色 + 一张 ownership 表,20 分钟能在立项会上问出「这条知识谁有权标过期」这类让组织缺口当场暴露的问题。

Jun 1, 2026·14分钟阅读

AI 起草的 25 页方案里 11 条事实是编的——第二个 Agent 当审稿人的 3 阶段卡口|Agentic AI 落地方法论(十一)

供应商提交的 PPT、AI 写的合规邮件、用 Claude 起草的内部方案——事实密集型输出里编造率 20-30% 是基线。读完 5 分钟能识破『让 LLM 自己 double-check』的伪验证,10 分钟能拿到 DRAFT → VERIFY → FINALIZE 3 阶段流程模板,20 分钟能把 7 类反复踩坑的事实错误(enum 大小写 / 招生 email / API 路径 / 模型 ID / deadline)变成 PR checklist 卡口——下次审 AI 写的材料时,每一条声明都能溯到代码或链接。

May 29, 2026·13分钟阅读

你以为定义好的意图够用了——1102 条样本里有 800 条说『不』|Agentic AI 落地方法论(十)

客服 Agent 跑了 3 个月,36 个意图体系、unknown 占 40%,业务方第一反应『加点 LLM 兜底』。问题根本不在分类器——在意图体系本身。读完 5 分钟能识破『unknown 高 = 模型弱』的伪诊断,10 分钟能用四象限判定规则筛掉 80% 的伪缺失意图建议,20 分钟能拿到 corpus → codebook 的迭代流程——把意图体系从 36 稳定演进到 48,下次评审会直接拍桌上。

May 28, 2026·14分钟阅读

让 Agent 直接调外部 API 是企业 Agentic 最贵的架构错误——5 层分层 + 25 个 API 契约清单|Agentic AI 落地方法论(九)

带客服 Agent 项目这一年最常见的伪架构:『我们让 Agent 直接调订单 / 工单 / 物流 API,接了 25 个,覆盖率高』——然后问「换 OMS 供应商怎么办」答「重写」,问「Mock 联调」答「等真实接口」,问「写操作合规审计」答「自己加日志」。这是没分层。写给正在带企业 Agentic 落地的架构负责人、老板、项目需求方:5 分钟能识破「Agent 直连 API」这个最贵的架构错误,10 分钟能拍板 5 层(Adapter / Service ABC / Tool / Workflow / Critic)的职责边界,20 分钟拿到 6 大外部系统 25 个 API 的分层接入清单 + 5 个本周要推动的架构决策。

May 27, 2026·17分钟阅读

3 级 intent 级联调参——规则 / Embedding / LLM 的成本-精度-延迟三角到底怎么定阈值|Agentic AI 落地方法论(八)

客服 Agent 的第一个节点是意图分类,做错这一步后面 4 个决策全白做。纯规则太脆、纯 LLM 太贵——3 级 fallback 是工程上唯一站得住的起步路径,跑到一定规模再演进到 LLM Router。读完 5 分钟能识破「我们直接用 LLM 就行」「我们 100% 规则可控」两种伪方案,10 分钟能给团队定下 3 级阈值的起步值,20 分钟能拿到 v1 → v2 升级到 LLM Router 的判断信号——下次评审拍在桌上。

May 25, 2026·16分钟阅读

AI 系统不能像传统软件那样测——双轨架构、7 质量维度、SSE Spike|Agentic AI 落地方法论(七)

带客服 Agent 项目这一年最常被「pytest 全绿、覆盖率 79%」糊弄过去的事——然后老板问『回答忠实度多少』,没人答得上来。AI 系统的「测过了」根本不是传统软件的「测过了」。这一篇写给正在带企业 Agentic 落地的架构负责人、老板、项目需求方:读完 5 分钟能识破「pytest 全绿就能上线」、10 分钟能拍板「QA 接哪 4 块、AI 运维管哪 3 块、dev 留哪 8 块」、20 分钟能拿到 7 质量维度阈值表 + 3 级评测节奏 + 5 件这周可以推动的事——直接带进下次架构评审会。

May 25, 2026·16分钟阅读

Agent 的脑和手——把 SOP 塞进知识库不等于 Agent 能做事|Agentic AI 落地方法论(六)

评审会上总有人问「为什么 Skills 没有像 MCP 那样的统一协议?我们怎么落地?」——这个问题问反了:等不到协议不是坏事,是你已经可以开始的信号。读完 5 分钟能识破「知识库写满 SOP 就当 Agent 落地了」的方案,10 分钟能用一个 3 行的测试把方案里的「假 Skill」全揪出来,20 分钟能给团队画一张企业内部 Skill 定义规范。

May 24, 2026·16分钟阅读

训练 60,000 步,Agent 学会的不是解决工单——是删工单

我设计了一个 ITSM Agent 研究环境,用真实的 ServiceNow 工单数据 fit。DQN 和 PPO 训练 60,000 步后,两种算法都达到 100% hacking 率——所有工单都用某种作弊姿势处理,零真实解决。这一篇是那段研究的工程视角复盘:6 种 ITSM 场景特有的 reward hacking 模式 + 为什么你的看板抓不到 + 本周工程团队可以做的 10 件事。

Oct 10, 2025·30分钟阅读