28 个所谓 Agent 项目,只有 5 个是真的——L0-L3 分级框架|Agentic AI 落地方法论(一)

Yaqin Hei··25分钟阅读
中文EN
28 个所谓 Agent 项目,只有 5 个是真的——L0-L3 分级框架|Agentic AI 落地方法论(一)

本文是《Agentic AI 落地方法论》系列第一篇。 上一个系列《零售企业 Agentic AI 落地手册》讲的是"怎么把一个客服 Agent 从 0 做到 1";这个系列往上一层——讲"怎么判断什么该做成 Agent、做到什么程度"。先对齐语言,再谈落地。English version: 28 'Agent' Projects, Only 5 Are Real — The L0-L3 Grading Framework

开篇:你的桌面上是不是也摆着这样一份清单

你的桌面上,是不是也摆着这样一份清单——

智能客服、智能补货、智能滞销预警、智能排班、智能门店、智能会员、智能内容…… 28 个候选场景,每个名字前面都加着"智能"或者"Agent"。老板说"今年要做",你不知道哪些是真的、哪些是虚的,更不知道该怎么向他汇报。

预算、人手、KPI,都在等这份清单批下来。

如果这个场景对你不陌生,往下看——下面这些号称 AI Agent 的项目,可能就在你的清单里:

  • 智能会议纪要? 流程固定:录音 → 转写 → LLM 总结 → 推送参会人。LLM 只在"总结"那一步出力。
  • 陈列合规检测? 本质是计算机视觉识别,根本不需要 LLM。
  • 售后客服? 要查订单、查物流、判政策、决定退款还是转人工——LLM 在多个节点做决策。

把整张清单 28 个场景过完,真正需要做成 Agent 的只有 5 个,19 个根本用不到 LLM 做自主决策,4 个介于中间。

如果你按原样把这份清单批下去,70% 的预算会投在"加了 LLM 的自动化"上——但所有人都按 Agent 汇报、按 Agent 设 KPI、按 Agent 期望评估效果。等到交付那天,全员困惑:投了这么多钱,怎么和原来的 BOT 没什么区别?

这不是 LLM 不行,也不是团队不行。是所有人嘴里的"Agent",指的根本不是同一个东西。

这篇文章给你一把 4 级分级尺子——读完之后,你能在 5 分钟内对任何一个 AI 项目判断:它到底是 Agent,还是别的东西。然后再用 20 分钟,把你手头的 28 个候选场景全部分类清楚。

一、为什么 "Agent" 这个词正在害死项目

开篇说"所有人嘴里的 Agent 不是同一个东西"——具体怎么不同?

角色嘴里的 "Agent" 是什么
销售 / 解决方案商任何卖了 LLM 能力的东西,从问答到多模态助手都叫 Agent
业务老板"比 BOT 更聪明"的东西,能解决问题、能自动跑业务
工程师严格意义上:能自主规划、调工具、循环执行的 LLM 系统
媒体 / 公众号凡是 LLM + 业务场景的组合,都能写成"XX Agent"

四类人各自说"Agent",每方都觉得自己说得清楚。直到他们坐到同一张会议桌上——

老板说"我们今年要做 Agent",销售拿出"Agent 解决方案"报价,工程师听完心想"这不就是意图分类 + RAG 吗",真正交付时业务方发现"和原来 BOT 没区别"。

每一方都在浪费钱,每一方都不知道是怎么浪费的。

这一年里我看到的翻车,形态各异,根因相同——没有共同的语言来描述自己究竟在做什么。下面三类最常见。

翻车 1:把模板引擎包装成 Agent 卖

我见过一个零售品牌,买了套"会员运营 Agent",号称能自主决定对哪些会员、在什么时点、发什么内容。上线半年复盘——"决定对哪些会员发"是规则引擎在跑,"什么时点发"是触发器在跑,LLM 真正出力的只是"把模板短信换成更口语化的个性化文案"。

这是一个标准的 L1 系统——LLM 嵌入固定流程的一个节点。但它被当作 L2 Agent 卖,付了 Agent 的价钱,挂了 Agent 的 KPI("自主决策""智能触达"),最后效果差距不是和"没用 LLM"比,而是和"自主 Agent 应有的解决率"比。

钱花了,没人买账。

翻车 2:该 L2 的场景,做成了 L1

另一类项目走的是反方向。某团队做售后客服——这本来是个 L2 场景,LLM 需要在意图判断、查订单、判政策、决定路径几个节点都做决策。但团队为了"保证可控性",把所有 LLM 决策都换成了规则:意图用规则匹配,查哪个 API 用决策树,退款条件用 if-else,LLM 只负责生成最终回复话术。

结果解决率卡在 30% 上不去(行业基线 60%-70%)。每加一个新场景都要写一堆规则,规则之间还冲突。半年后团队意识到:他们花了 Agent 的钱,做了一个加了 LLM 文案的 BOT。

明明可以让 LLM 自主决策的场景,用"可控"做借口,把它退化成了 L1——这种翻车比前一类更隐蔽,因为表面"项目交付了"。

翻车 3:业务方追 L3 多 Agent,工程根本 hold 不住

第三种翻车最常见于"PPT 项目"。某次评审会,业务方给我看一份方案:5 个子 Agent(销售、库存、客户、运营、CEO)互相对话、互相决策、互相反思,最后输出一份"战略建议报告"。

我问:哪个 Agent 听哪个 Agent 的?冲突怎么仲裁?某个 Agent 输出错了,下游怎么知道?token 成本一次评估多少?

业务方答不上来。他看到的是 demo 视频里的"Agent 协作",没看到底下的工程复杂度。

L3 多 Agent 编排在 2026 年依然是研究问题。愿意为它买单的企业很多,能稳定交付的团队极少。这不是 LLM 能力问题,是工程治理问题——状态管理、错误传播、成本控制、可观测性,每一项都比单 Agent 难一个量级。

三类翻车,一个根因

这三类翻车的根因,都不是 LLM 不行,也不是团队不行。是大家在用同一个词"Agent",说着完全不同的事。

销售说的 Agent 是 L1,业务老板要的 Agent 是 L2,工程师能稳定交付的是 L1-L2,业务方想象的 Agent 是 L3——四方对不上,预算就翻车。

要让这件事不再发生,第一步是建立共同的语言。下面给出第一版——四个级别、一个判断标准,让四方坐到同一张桌上时,嘴里的 Agent 真的是同一件事。

二、L0-L3 分级框架:4 级共同语言

要解决"四方对不上"的问题,需要的不是更花哨的定义,而是一把能立刻拿来用的尺子:一眼能判断、各方都能对齐、不依赖技术背景。

我把它分成四级。先说一个关键认知:四级看似线性,最大的鸿沟在 L1 和 L2 之间。 这是"加了 LLM 的自动化"和真 Agent 的分界线,所有"假 Agent"翻车都是没看清它。

级别名称核心特征通俗理解
L0规则自动化if-then 决策树,固定分支,无 LLM"按剧本演的客服机器人"
L1LLM 增强LLM 做内容生成 / 理解,但流程固定,不自主决策"聪明了的模板引擎"
L2工具调用型 AgentLLM 判断该调哪个工具、何时调、怎么用结果,有自主决策"能查系统、做判断的数字员工"
L3多步编排型 Agent多 Agent 协作,有规划→执行→反思循环,处理开放任务"能独立完成复杂项目的数字团队"

唯一判断标准:有没有自主决策环节

判断一个系统在哪一级,只需要回答一个问题——

运行时,LLM 是否根据上下文动态选择下一步行动?

  • 答"否":流程是预设的,LLM 不出现或只在固定节点工作 → L0(无 LLM)或 L1(有 LLM)
  • 答"是,一个节点":LLM 在一个关键节点做决策("该不该转人工")→ L2 入门
  • 答"是,多个节点":LLM 在多个节点都做决策("先查什么、查到的怎么用、下一步去哪")→ 典型 L2
  • 答"是,而且决策之间有反思循环":LLM 自己评估上一步对不对、要不要重做 → L3

"用了 LLM"和"LLM 做自主决策"是两件事。前者是 L1 的门槛,后者是 L2 的门槛。这是最常被混淆的一道线。

三个对照例子

光说定义还是抽象。把三个场景拆给你看——形态差异一目了然。

例子 A:会员触达(L1)

为什么是 L1:LLM 只在"生成文案"这一个节点出力,整个流程是预设的,没有"LLM 决定下一步去哪"的环节。

触发条件 → 选渠道 → [LLM 生成个性化文案] → 发送
            ↑ 流程全是预设的,LLM 只在"生成文案"这个节点出力
            ↑ 典型 L1

LLM 让短信变得更口语化、更个性化,体感是"有 AI 的味道"——但本质是模板引擎。把 LLM 换成 50 套精心写好的模板,效果差不到哪里去。这就是 L1 的边界。

例子 B:售后客服(L2)

为什么是 L2:LLM 在 4 个节点做自主决策(理解意图 → 决定查哪个系统 → 判断政策 → 决定回答/转人工/创工单),流程不是预设的,每次对话路径都不一样。

用户提问 → [LLM 理解意图] → [LLM 决定查哪个系统]
       → 调订单 API / 物流 API / 工单 API
       → [LLM 判断是否符合退换货政策]
       → [LLM 决定: 直接回答 / 转人工 / 创建工单]
            ↑ LLM 在 4 个节点做自主决策
            ↑ 典型 L2

这才是 Agent。LLM 不是"加在某一步",而是串联整个流程的大脑。每一次对话的执行路径都不一样,但都收敛到同一个目标(解决用户问题)。

例子 C:智能补货(L3)

为什么是 L3:不是因为"用了多个 Agent",而是因为有规划→执行→反思的循环——Agent 生成方案、Critic Agent 审核、根据审核反馈再修改,多轮迭代直到收敛。

Critic Agent 是后面会多次出现的概念,先给个定义:用另一个 LLM 专门审核第一个 LLM 输出是否合理。比如第一个 Agent 提出"门店 A 补 100 件 T 恤",Critic 检查这个方案是否符合库存上限、品牌授权、季节性等约束,不合理就打回去重做。本质是"AI 互相校稿"——避免单个 LLM 自说自话出错。)

数据采集 → [需求预测模型]
       → [Agent 生成补货方案]
       → [Critic Agent 审核方案合理性]
       → [Agent 根据 Critic 反馈修改方案]
       → 多轮迭代直到收敛
       → 人工最终审批
            ↑ 多个 Agent 角色 + 反思循环
            ↑ 处理开放任务("这周该补什么货"没有标准答案)
            ↑ 典型 L3

L3 的关键不是"用了更多 Agent",是反思循环:系统自己评估输出对不对,不对就重做。这是 L3 区别于 L2 的根本特征。

智能补货是这两年零售业 AI 的最大痛点之一,几乎每家头部品牌都在试,但能稳定落到 L3 的极少。原因和上一节翻车 3 一样:愿意为多 Agent 协作买单的客户很多,能把工程复杂度 hold 住的团队极少。

这套尺子怎么用

回到开篇的场景:当老板问"我们做的是 Agent 吗?",你不用辩论。给他这张表,让他看 3 个对照例子,他自己就能判断。

更进一步:你可以把手头每个候选场景,逐一对到表里。一个下午,你会得到一份比 PPT 战略更有用的清单——这 28 个场景里,哪些是 L0,哪些是 L1,哪些才值得花 Agent 的钱去做 L2 / L3。

如果"对到表里"听上去还是抽象,下面这份 5 问题清单把它压到每个项目 3 分钟。

三、5 分钟自查清单:你的项目到底在哪一级

把上一节的判断方法拆成 5 个问题,每个 30 秒能答。全部答完,你就知道这个项目是 L 几——以及供应商有没有在忽悠你。

这一节是给你截图发到群里、转给老板看的。

Q1. 你的流程里,LLM 有几个决策节点?

数一下:用户输入进来后,LLM 在哪些步骤上"判断该去哪一步"——不是生成内容、不是给答案,是决定下一步的方向。

→ 0 个:L0 / L1 | 1 个:L2 入门 | 多个:典型 L2 | 多个 + 反思循环:L3

🚩 红旗信号:供应商说"我们的 Agent 智能选择最优路径"——问他具体在哪几个节点。讲不出节点名字的,多半是 L1 包装。

Q2. 如果 LLM 输出错了,会造成不可逆后果吗?

L2 / L3 真 Agent 的标志之一,是它的输出会触发副作用——发退款、改订单、创工单、扣库存。

→ 没副作用、只是回答内容:L1 / L2 问答型 | 有副作用 + 规则二次校验:L1 / L2 | 有副作用 + LLM 自己决定执行:L2,必须配 Critic 兜底 | 能根据后果调整后续动作:L3

🚩 红旗信号:"我们 Agent 已经完全替代人工"——但凡涉及钱、库存、客户承诺的写操作,没人工兜底 / Critic 校验的"完全替代"都是高风险。

Q3. 运行时的流程分支,是预设的还是 LLM 临时决定的?

打开项目代码(或问工程师):

→ 流程图写死,LLM 只在某个 box 里出力:L0 / L1 | 有几条主分支,LLM 决定走哪条:L2 入门 | 没有静态流程图,LLM 根据上下文动态构建路径:典型 L2 / L3

🚩 红旗信号:供应商展示的架构图里,所有节点都画得整整齐齐用箭头连好——大概率是 L1。真 Agent 的架构图是工具列表 + 上下文 + LLM 路由,没有静态流程图。

Q4. 是否需要跨多个外部系统取数 + 综合判断?

L2 真 Agent 的核心能力:LLM 决定调哪个系统、调几次、怎么把结果拼起来回答。

→ 不需查外部系统:L0 / L1 | 查 1 个系统 + 规则路由:L1 | 查多个系统 + LLM 决定怎么用:L2 | 跨系统取数 + 跨 Agent 协作 + 反思:L3

🚩 红旗信号:"我们 Agent 接入了 50 个系统"——问他 LLM 怎么知道该调哪个。答"我们写了路由规则"的,LLM 没在做决策,是 L1。

Q5. 有没有"规划 → 执行 → 反思"循环?

L3 的根本特征:

→ 输出一次就结束:L0 / L1 / L2 | 输出后有另一个 Agent 评估、决定要不要重做:L3 入门 | 多角色协作"生成—审核—修改":典型 L3

🚩 红旗信号:"我们用了 5 个 Agent"——问他,这 5 个 Agent 之间怎么协作?谁听谁的?冲突怎么仲裁?答不上来就是营销话术,不是工程方案。

自查总结表

Q1 决策节点Q2 副作用Q3 流程动态性Q4 跨系统取数Q5 反思循环结论
0预设L0 / L1
1部分动态单系统L2 入门
动态跨系统典型 L2
动态跨系统L3

这张表配上 5 个问题,5 分钟把任何一个 AI 项目定位清楚。

光看尺子还是抽象,下面把它套到真实清单上。剧透结果:真 Agent(L2-L3)只有 5 个,LLM 增强自动化(L0-L1)有 19 个,4 个介于中间。也就是说,70% 的"Agent 候选"根本不需要花 Agent 的钱。 把这个数字记在脑子里,下面看具体是哪些。

四、用尺子盘 28 个候选场景:真 Agent 究竟有几个

把这把尺子套到具体场景上看看。

下面是 28 个最常见的零售 / 消费行业 AI 候选场景,按业务层划分。每一个我都用上一节的 5 个问题过了一遍,结果可能会颠覆你对"AI 项目"的认知。

这里的命名都是零售业通用术语。如果你不在零售业,把"门店导购"想成"销售人员"、"补货"想成"库存周转",逻辑通用。

顾客旅程层(5 个候选场景)

直面客户的环节,AI 滥用最严重的重灾区。

#场景级别一句话理由
1售后客服L2多轮对话 + 跨系统查数 + LLM 决定回答/转人工/创工单——4 个决策节点
2线上导购副驾L1-L2 ⚠️RAG 检索产品知识 + 推荐搭配,主要辅助导购而非替代
3门店导购副驾L1 ❌扫码查产品知识卡,本质 RAG 查询
4会员运营L1 ❌规则触发 + 模板短信,LLM 只生成文案
5个性化推荐L0-L1 ❌推荐算法核心 + LLM 解释推荐理由

这一层 5 个里,真 Agent 只有 1 个(售后客服)。其他 4 个都是"加了 LLM 的现有系统"——大多数公司把会员运营也叫"会员 Agent",但它根本不需要 LLM 做决策。

供应链层(5 个候选场景)

业务老板最痛的环节,也是 L3 真 Agent 的少数候选地。

#场景级别一句话理由
6智能补货调货L3需求预测 + Agent 生成方案 + Critic 审核 + 反思迭代
7滞销预警L1 ❌规则 / 模型识别库龄异常 + LLM 生成预警简报,流程固定
8物流异常追踪L0-L1 ❌对接物流 API + 规则判断延误 + 通知,事件驱动自动化
9新品铺货L1-L2 ⚠️门店画像匹配 + 预测模型 + 生成分货方案,主要靠算法
10供应商协作L1 ❌数据汇总 + LLM 生成品牌销售报告

这一层 5 个里,真 Agent 也只有 1 个(智能补货)。剩下的"智能滞销预警""智能物流",名字唬人,本质是规则 + LLM 文案。

门店运营层(5 个候选场景)

最容易被"自动化"忽悠的环节——5 个里 3 个根本不需要 LLM

#场景级别一句话理由
11排班优化L1 ❌历史流量预测 + 生成排班建议,优化算法主导
12门店 KPI 辅导L1 ❌数据聚合 + LLM 生成经营分析解读
13陈列合规检测L0计算机视觉识别陈列规范,CV 任务
14库存盘点L0RFID 数据 + 异常检测算法,IoT
15设备维保L0传感器数据 + 预测性维护模型

这一层没有一个真 Agent。供应商如果给你卖"门店运营 Agent",先看是哪个场景——大概率是 CV 或 IoT 系统加了 LLM 文案壳子。

人才发展层(4 个候选场景)

唯一一个"非业务核心但有真 Agent"的层。

#场景级别一句话理由
16员工培训L2LLM 扮演客户角色,多轮对话模拟训练,动态出题
17招聘筛选L1 ❌简历解析 + 规则匹配 + LLM 评分
18绩效反馈L1 ❌数据聚合 + LLM 生成个性化绩效报告
19员工关怀L0-L1 ❌文本分析员工情绪趋势,NLP 分析

员工培训是个有趣的 L2——LLM 扮演客户和员工对话,根据员工回答动态调整难度和场景。这种"角色扮演 + 动态出题"是少数适合 L2 的非核心业务场景。

营销增长层(5 个候选场景)

LLM 内容生成的主场,也是 L1 的舒适区。

#场景级别一句话理由
20活动策划L1 ❌历史 ROI 分析 + LLM 生成方案草稿,人做决策
21内容生成L1 ❌LLM 批量生成产品文案 / 朋友圈内容
22竞品监控L0-L1 ❌爬虫采集 + 规则告警 + LLM 生成简报
23数据分析(Text-to-SQL)L2 ⚠️LLM 决定生成什么 SQL,调数据库工具,解读结果
24品牌合规L1 ❌规则 + LLM 检测营销素材是否合规

注意一个反直觉点:内容生成虽然全程是 LLM,但不是 Agent——因为没有自主决策环节,只是 LLM 当文案机。

财务风控层(4 个候选场景)

写操作密集,也是 Critic 兜底最重要的层。

#场景级别一句话理由
25退货欺诈检测L2多维度异常检测 + 关联分析 + LLM 判断是否标记 / 拦截
26价格优化L0-L1 ❌优化算法在品牌授权区间内搜索最优价
27财务预测L1 ❌时序预测模型 + LLM 生成解读
28合规审查L1-L2 ⚠️LLM 阅读合同 + 检查规则库,流程线性

这一层 4 个里 1 个真 Agent(退货欺诈检测)。这是必须配 Critic 兜底的 L2——标记和拦截都是写操作,错了会得罪客户。

28 场景汇总

把 28 个场景按级别重新归类:

类型数量占比代表场景
✅ 真 Agent(L2-L3,有自主决策)518%售后客服、智能补货、员工培训、Text-to-SQL、退货欺诈
⚠️ 部分 Agent(L1-L2 边界)414%线上导购副驾、新品铺货、合规审查、数据分析
❌ LLM 增强自动化(L0-L1)1968%其余全部

最关键的结论

  • 真正需要"花 Agent 的钱去做 Agent"的,只有 5 个。剩下 19 个根本不需要 LLM 自主决策——做成 L1 自动化即可,预算量级和 Agent 差一个数量级。
  • 5 个真 Agent 集中在三类场景:客户直接交互(售后客服)、跨系统决策(补货 / 欺诈 / Text-to-SQL)、动态对话(员工培训)。其他场景被叫"Agent",多半是营销话术
  • L0 完全不需要 LLM 的场景,依然占 3 个(陈列合规 / 盘点 / 维保)——CV 和 IoT 不要硬塞 LLM。

一个建议:给项目名字"减肥"

把 28 个场景按级别重新命名一遍,整个项目组合的复杂度和投入预算就会清晰起来:

真实级别推荐命名例子
L2 / L3"XX Agent"售后客服 Agent、智能补货 Agent
L1"AI XX 助手""智能 XX 系统"AI 文案助手、智能排班系统
L0"XX 自动化"陈列合规自动化、库存盘点自动化

下次有人给你提"我们要做 28 个 Agent 项目",让他先按这套命名重写一遍。改完名字,预算会自动收敛——Agent 和"助手"完全不是一个量级的事。

不同角色用这把尺子姿势不一样——决策者在评审会上、售前向客户解释、工程师顶住业务方加码。下面按三类读者拆开讲。

五、给三类读者的行动指南

尺子有了,结论也有了。三类读者,三种典型场景——下面分别给一份能直接拿去用的话术。

给决策者:评估供应商 / 内部立项的 3 个尽调问题

听完任何"Agent 方案"汇报后,问这 3 个——任何一个答不上来,方案就要重写

Q1: 用 L0-L3 框架量,这是 L 几? 让对方当场对着 4 级表给一个明确答案。答"我们超越了分级"或"综合多级"——红旗,他在回避定级。

Q2: 我们花的是 L 几的钱? L0 / L1 项目和 L2 / L3 项目,预算量级差一个数量级。L1 报 L2 价,你被宰;真 L2 报 L1 预算,团队会偷工减料做成 L1。

Q3: 交付后按 L 几评估效果? L0 / L1 看"自动化率""文案点击率",L2 看"任务解决率""跨系统准确率",L3 看"方案接受率""反思收敛速度"。指标和级别错配 = 各方扯皮——交付方说达标,业务方说体感差。

这 3 个问题一问,30 分钟里就能看穿一个 PPT 项目。

给售前 / 解决方案 PM:向客户解释产品差异的话术模板

客户两个常见问题,用 L0-L3 框架回答比任何营销话术都管用:

"你们和 XX 有什么区别?"

"他们的方案是 L1——LLM 嵌在固定流程里做内容生成。我们是 L2——LLM 在多个节点自主决策。差别不是参数大小或模型版本,是 LLM 在系统里的角色。可以现场拆给您看:他们的架构图里 LLM 在一个 box 里,我们的 LLM 串联整个流程。"

"我们已经有 BOT 了,为什么还要做 Agent?"

"您现有 BOT 是 L0——按规则树跑。'接住率'可能很高(80%+),但'解决率'未知——因为它不会答的问题就转人工,从不真正解决。Agent 是 L2——LLM 决定查哪个系统、判断政策、决定回答还是转人工。差别不是哪个聪明,是从'接住'到'解决'的跨越。"

记住一个核心句式——"我们是 L X,他们 / 你们现有的是 L Y,相差的不是技术好坏,是 LLM 在系统里的角色"。客户听完会自己得出结论,不需要你反复推销。

给工程团队:反驳"这个场景不需要 Agent 化"的沟通技巧

业务老板说"全部做成 Agent",工程最难的不是技术,是怎么说服老板"这个场景做成 L1 就够了"。

直接说"不需要 Agent" → 老板会怀疑你技术保守 / 推卸工作。换成三步:

1. 用老板熟悉的语言重新描述场景

"老板,'会员智能触达'按 L0-L3 框架是 L1——LLM 在'生成文案'一个节点出力,其他都是规则跑。"

2. 明确做成 L2 的成本和风险

"做成 L2 要让 LLM 决定'什么时点发、给谁、走什么渠道'——开发量是 L1 的 3-5 倍,每次失败案例都要复盘。效果能比 L1 好多少?我们没证据。"

3. 给一个老板能接受的折中

"建议先做 L1,3 个月上线见效果。效果到瓶颈再升级 L2——那时候有数据支撑判断'升级值不值',不是凭感觉。"

核心是别让老板感到"你在拒绝他的方向",而是"你给了他一个更稳的路径"。L0-L3 框架在这里的价值,是把模糊的工程判断翻译成商业语言:老板听得懂"3 倍开发量"和"效果证据",但听不懂"工具调用框架"。

六、结语:选对级别,比追求高级别更重要

回到开篇那个场景。

老板拍板"今年我们要做 Agent",团队报上 28 个候选场景。如果你已经读到这里,你会知道:真正需要做成 Agent 的,只有 5 个。

但这不是坏消息。

坏消息只属于那些把 L1 当 L2 卖、把 L0 当 L2 做、把 PPT 上的 L3 当真能交付的人。对真正想用 AI 解决业务问题的团队,分级框架让 70% 的投入回到正确的地方——L1 自动化有 L1 的价值,只是它不该花 Agent 的预算、挂 Agent 的 KPI、被叫 Agent 的名字。

Agent 不是终点,是工具。选对级别,比追求高级别更重要。

一个行动:先把你手头的项目过一遍

如果你读到这里,先做一件事:回到第三节,用 5 个问题把你手头正在做的(或正在评估的)AI 项目过一遍。它到底是 L 几?

20 分钟,你会得到一份比 PPT 战略更有用的清单。下次开会用它做沟通基础,比任何"AI 转型路线图"都管用。

领取这篇文章的工具包

如果你想把这篇里的工具立刻用到自己的项目上——不用每次开会都翻这篇文章——我整理了一个 PDF 工具包给读到这里的读者:

📥 回复关键词「Agent 分级」,我把工具包发给你:

  1. 28 场景分级判断表(一页 A3 印刷版,你的项目组合 30 秒看清)
  2. 5 问题自查清单 · 卡片版(6 张方形卡,团队群里一发就懂)
  3. L0-L3 框架高清图(汇报 PPT 可直接用,已配通俗解释列)

这是我做客服 Agent 项目两年沉淀下来的判断工具。

回复渠道见页脚(公众号 / X)。不方便回复的,评论区留邮箱也行。

这个系列接下来要写什么

这是《Agentic AI 落地方法论》系列的第一篇。L0-L3 框架解决的是对齐语言、看清现状的问题——但 5 个真 Agent 具体怎么做?这才是大部分团队卡住的地方。

下一篇要写的是:L2 真 Agent 在客服场景到底怎么做?

核心问题包括:

  • 为什么 L2 客服 Agent 不能用 L3 autonomous planning?金融操作的 deterministic safety 要求是什么?
  • 三级 intent fallback(规则 → embedding → LLM)的成本-效果三角怎么调?
  • 写操作(退款 / 改单 / 创工单)的 Fail-closed LLM Critic 设计——为什么 timeout / error 必须升级到人工而不是放行?
  • 25 个 API 集成(订单 / 工单 / 物流 / 电商等 6 大系统)的契约设计
  • 从 80% "接住率" 到 65% "解决率" 的评估体系怎么搭——给业务老板看的指标长什么样?

如果你的团队正在做客服 Agent,下一篇会比本篇更细、更深、更有工程价值。

系列后续已发布

如果这篇对你有用,也欢迎转给团队里需要看的人——尤其是被"28 个 Agent 候选项目"折磨过的同事。

Subscribe for updates

Get the latest AI engineering posts delivered to your inbox.

评论