← All posts

企业AI落地

15 posts

标多少条才够?不是流量的百分之几,是「标到能下结论就停」

「标了 50 条,96% 做对,能上线吧?」——不能,统计下界只有 86%。读完 5 分钟能识破小样本 96% 的假达标,10 分钟能看懂「标注量不按流量比例、按标到下结论就停」,20 分钟能拿到一张「真实做对率 → 该标多少条」的对照表,和一条最省人力的铁律:标注量随意图数 × 渠道数涨,不随流量涨。

Jul 3, 2026·16分钟阅读

上线之后,才是 agent 架构的分水岭——从你怎么抽那几百条评估样本说起

「AI 越强越不需要人」是过去两年最流行的错觉。真金白银在做 agent 的地方,标注和评估团队不减反增。读完 5 分钟能看清「能做出 demo」和「能持续做对」之间隔着什么,10 分钟能问出让评估集现原形的 3 个抽样问题,20 分钟能把自己的评估集从「随手翻 log」重画成一张分层抽样框——把退错钱、错放合规这类稀有高危事件,从「永远抽不到」拉回评估视野。

Jul 2, 2026·18分钟阅读

自助率 ≠ 做对率:上线前到底卡哪几道闸|Agentic AI 落地方法论(十三)

老板会上那句「自助率到底要 65 还是 90」,把质和量两个轴塞进了一个数字——一笔退错钱的单子,面板上照样是 approved。读完 5 分钟能识破「自助率 95%」式的单数字汇报,10 分钟能照着搭出 9 门槛分三层的上线准入闸,20 分钟能在准入会上问出「这条红线是真对账了,还是接口没通靠转人工兜」这种让虚假绿勾当场暴露的问题。

Jun 2, 2026·15分钟阅读

组织架构图才是真正的架构图:Agent 项目空转,根因 90% 不在技术|Agentic AI 落地方法论(十二)

标注交了、评测基线建了、4 个场景跑通了——项目还是空转了 3 周。复盘根因不是代码,是 RACI 表上 5 个角色写着「待定」。读完 5 分钟能识破「项目组已经组好了」的假到位,10 分钟能照着画出 Agent 落地必须新增的 3 个角色 + 一张 ownership 表,20 分钟能在立项会上问出「这条知识谁有权标过期」这类让组织缺口当场暴露的问题。

Jun 1, 2026·14分钟阅读

AI 起草的 25 页方案里 11 条事实是编的——第二个 Agent 当审稿人的 3 阶段卡口|Agentic AI 落地方法论(十一)

供应商提交的 PPT、AI 写的合规邮件、用 Claude 起草的内部方案——事实密集型输出里编造率 20-30% 是基线。读完 5 分钟能识破『让 LLM 自己 double-check』的伪验证,10 分钟能拿到 DRAFT → VERIFY → FINALIZE 3 阶段流程模板,20 分钟能把 7 类反复踩坑的事实错误(enum 大小写 / 招生 email / API 路径 / 模型 ID / deadline)变成 PR checklist 卡口——下次审 AI 写的材料时,每一条声明都能溯到代码或链接。

May 29, 2026·13分钟阅读

你以为定义好的意图够用了——1102 条样本里有 800 条说『不』|Agentic AI 落地方法论(十)

客服 Agent 跑了 3 个月,36 个意图体系、unknown 占 40%,业务方第一反应『加点 LLM 兜底』。问题根本不在分类器——在意图体系本身。读完 5 分钟能识破『unknown 高 = 模型弱』的伪诊断,10 分钟能用四象限判定规则筛掉 80% 的伪缺失意图建议,20 分钟能拿到 corpus → codebook 的迭代流程——把意图体系从 36 稳定演进到 48,下次评审会直接拍桌上。

May 28, 2026·14分钟阅读

别让 AI 智能体直接调外部 API——5 层工具调用架构 + 25 个 API 契约清单

带客服 Agent 项目这一年最常见的伪架构:『我们让 Agent 直接调订单 / 工单 / 物流 API,接了 25 个,覆盖率高』——然后问「换 OMS 供应商怎么办」答「重写」,问「Mock 联调」答「等真实接口」,问「写操作合规审计」答「自己加日志」。这是没分层。写给正在带企业 Agentic 落地的架构负责人、老板、项目需求方:5 分钟能识破「Agent 直连 API」这个最贵的架构错误,10 分钟能拍板 5 层(Adapter / Service ABC / Tool / Workflow / Critic)的职责边界,20 分钟拿到 6 大外部系统 25 个 API 的分层接入清单 + 5 个本周要推动的架构决策。

May 27, 2026·17分钟阅读

意图分类(intent classification)怎么做:规则 / Embedding / LLM 三级级联怎么定阈值

客服 Agent 的第一个节点是意图分类,做错这一步后面 4 个决策全白做。纯规则太脆、纯 LLM 太贵——3 级 fallback 是工程上唯一站得住的起步路径,跑到一定规模再演进到 LLM Router。读完 5 分钟能识破「我们直接用 LLM 就行」「我们 100% 规则可控」两种伪方案,10 分钟能给团队定下 3 级阈值的起步值,20 分钟能拿到 v1 → v2 升级到 LLM Router 的判断信号——下次评审拍在桌上。

May 25, 2026·16分钟阅读

AI 智能体怎么测?不能像传统软件那样测——双轨架构 + 7 个质量维度 + SSE Spike

带客服 Agent 项目这一年最常被「pytest 全绿、覆盖率 79%」糊弄过去的事——然后老板问『回答忠实度多少』,没人答得上来。AI 系统的「测过了」根本不是传统软件的「测过了」。这一篇写给正在带企业 Agentic 落地的架构负责人、老板、项目需求方:读完 5 分钟能识破「pytest 全绿就能上线」、10 分钟能拍板「QA 接哪 4 块、AI 运维管哪 3 块、dev 留哪 8 块」、20 分钟能拿到 7 质量维度阈值表 + 3 级评测节奏 + 5 件这周可以推动的事——直接带进下次架构评审会。

May 25, 2026·16分钟阅读

Agent Skills vs 知识库:把 SOP 塞进 RAG 不等于 AI 智能体能做事

评审会上总有人问「为什么 Skills 没有像 MCP 那样的统一协议?我们怎么落地?」——这个问题问反了:等不到协议不是坏事,是你已经可以开始的信号。读完 5 分钟能识破「知识库写满 SOP 就当 Agent 落地了」的方案,10 分钟能用一个 3 行的测试把方案里的「假 Skill」全揪出来,20 分钟能给团队画一张企业内部 Skill 定义规范。

May 24, 2026·16分钟阅读