企业AI落地

15 posts

标多少条才够？不是流量的百分之几，是「标到能下结论就停」

「标了 50 条，96% 做对，能上线吧？」——不能，统计下界只有 86%。读完 5 分钟能识破小样本 96% 的假达标，10 分钟能看懂「标注量不按流量比例、按标到下结论就停」，20 分钟能拿到一张「真实做对率 → 该标多少条」的对照表，和一条最省人力的铁律：标注量随意图数 × 渠道数涨，不随流量涨。

Jul 3, 2026·16分钟阅读

上线之后，才是 agent 架构的分水岭——从你怎么抽那几百条评估样本说起

「AI 越强越不需要人」是过去两年最流行的错觉。真金白银在做 agent 的地方，标注和评估团队不减反增。读完 5 分钟能看清「能做出 demo」和「能持续做对」之间隔着什么，10 分钟能问出让评估集现原形的 3 个抽样问题，20 分钟能把自己的评估集从「随手翻 log」重画成一张分层抽样框——把退错钱、错放合规这类稀有高危事件，从「永远抽不到」拉回评估视野。

Jul 2, 2026·18分钟阅读

自助率 ≠ 做对率：上线前到底卡哪几道闸｜Agentic AI 落地方法论（十三）

老板会上那句「自助率到底要 65 还是 90」，把质和量两个轴塞进了一个数字——一笔退错钱的单子，面板上照样是 approved。读完 5 分钟能识破「自助率 95%」式的单数字汇报，10 分钟能照着搭出 9 门槛分三层的上线准入闸，20 分钟能在准入会上问出「这条红线是真对账了，还是接口没通靠转人工兜」这种让虚假绿勾当场暴露的问题。

Jun 2, 2026·15分钟阅读

组织架构图才是真正的架构图：Agent 项目空转，根因 90% 不在技术｜Agentic AI 落地方法论（十二）

标注交了、评测基线建了、4 个场景跑通了——项目还是空转了 3 周。复盘根因不是代码，是 RACI 表上 5 个角色写着「待定」。读完 5 分钟能识破「项目组已经组好了」的假到位，10 分钟能照着画出 Agent 落地必须新增的 3 个角色 + 一张 ownership 表，20 分钟能在立项会上问出「这条知识谁有权标过期」这类让组织缺口当场暴露的问题。

Jun 1, 2026·14分钟阅读

AI 起草的 25 页方案里 11 条事实是编的——第二个 Agent 当审稿人的 3 阶段卡口｜Agentic AI 落地方法论（十一）

供应商提交的 PPT、AI 写的合规邮件、用 Claude 起草的内部方案——事实密集型输出里编造率 20-30% 是基线。读完 5 分钟能识破『让 LLM 自己 double-check』的伪验证，10 分钟能拿到 DRAFT → VERIFY → FINALIZE 3 阶段流程模板，20 分钟能把 7 类反复踩坑的事实错误（enum 大小写 / 招生 email / API 路径 / 模型 ID / deadline）变成 PR checklist 卡口——下次审 AI 写的材料时，每一条声明都能溯到代码或链接。

May 29, 2026·13分钟阅读

你以为定义好的意图够用了——1102 条样本里有 800 条说『不』｜Agentic AI 落地方法论（十）

客服 Agent 跑了 3 个月，36 个意图体系、unknown 占 40%，业务方第一反应『加点 LLM 兜底』。问题根本不在分类器——在意图体系本身。读完 5 分钟能识破『unknown 高 = 模型弱』的伪诊断，10 分钟能用四象限判定规则筛掉 80% 的伪缺失意图建议，20 分钟能拿到 corpus → codebook 的迭代流程——把意图体系从 36 稳定演进到 48，下次评审会直接拍桌上。

May 28, 2026·14分钟阅读

别让 AI 智能体直接调外部 API——5 层工具调用架构 + 25 个 API 契约清单

带客服 Agent 项目这一年最常见的伪架构：『我们让 Agent 直接调订单 / 工单 / 物流 API，接了 25 个，覆盖率高』——然后问「换 OMS 供应商怎么办」答「重写」，问「Mock 联调」答「等真实接口」，问「写操作合规审计」答「自己加日志」。这是没分层。写给正在带企业 Agentic 落地的架构负责人、老板、项目需求方：5 分钟能识破「Agent 直连 API」这个最贵的架构错误，10 分钟能拍板 5 层（Adapter / Service ABC / Tool / Workflow / Critic）的职责边界，20 分钟拿到 6 大外部系统 25 个 API 的分层接入清单 + 5 个本周要推动的架构决策。

May 27, 2026·17分钟阅读

意图分类（intent classification）怎么做：规则 / Embedding / LLM 三级级联怎么定阈值

客服 Agent 的第一个节点是意图分类，做错这一步后面 4 个决策全白做。纯规则太脆、纯 LLM 太贵——3 级 fallback 是工程上唯一站得住的起步路径，跑到一定规模再演进到 LLM Router。读完 5 分钟能识破「我们直接用 LLM 就行」「我们 100% 规则可控」两种伪方案，10 分钟能给团队定下 3 级阈值的起步值，20 分钟能拿到 v1 → v2 升级到 LLM Router 的判断信号——下次评审拍在桌上。

May 25, 2026·16分钟阅读

AI 智能体怎么测？不能像传统软件那样测——双轨架构 + 7 个质量维度 + SSE Spike

带客服 Agent 项目这一年最常被「pytest 全绿、覆盖率 79%」糊弄过去的事——然后老板问『回答忠实度多少』，没人答得上来。AI 系统的「测过了」根本不是传统软件的「测过了」。这一篇写给正在带企业 Agentic 落地的架构负责人、老板、项目需求方：读完 5 分钟能识破「pytest 全绿就能上线」、10 分钟能拍板「QA 接哪 4 块、AI 运维管哪 3 块、dev 留哪 8 块」、20 分钟能拿到 7 质量维度阈值表 + 3 级评测节奏 + 5 件这周可以推动的事——直接带进下次架构评审会。

May 25, 2026·16分钟阅读

企业AI落地

标多少条才够？不是流量的百分之几，是「标到能下结论就停」

上线之后，才是 agent 架构的分水岭——从你怎么抽那几百条评估样本说起

自助率 ≠ 做对率：上线前到底卡哪几道闸｜Agentic AI 落地方法论（十三）

组织架构图才是真正的架构图：Agent 项目空转，根因 90% 不在技术｜Agentic AI 落地方法论（十二）

AI 起草的 25 页方案里 11 条事实是编的——第二个 Agent 当审稿人的 3 阶段卡口｜Agentic AI 落地方法论（十一）

你以为定义好的意图够用了——1102 条样本里有 800 条说『不』｜Agentic AI 落地方法论（十）

别让 AI 智能体直接调外部 API——5 层工具调用架构 + 25 个 API 契约清单

意图分类（intent classification）怎么做：规则 / Embedding / LLM 三级级联怎么定阈值

AI 智能体怎么测？不能像传统软件那样测——双轨架构 + 7 个质量维度 + SSE Spike

Agent Skills vs 知识库：把 SOP 塞进 RAG 不等于 AI 智能体能做事

接住率 vs 解决率：客服 AI 唯一值得当北极星的指标（98% 满意度是怎么算出来的）

上线即放养：AI Agent 项目最贵的认知陷阱｜Agentic AI 落地方法论（四）

自动化率 70% 的 Critic 比 95% 的更值钱——fail-closed 设计深挖｜Agentic AI 落地方法论（三）

5 个架构决策，决定你的客服 Agent 能不能上线——为什么必须做成 L2，而不是 L3｜Agentic AI 落地方法论（二）

审了 28 个 AI 项目，只有 5 个是真 Agent