连天天用 Claude 的人,都说不清什么是 agent

Yaqin Hei··10分钟阅读
中文EN
连天天用 Claude 的人,都说不清什么是 agent

这是我聊 Agentic AI 的起点——在给项目定级、谈架构、讲落地之前,先把「什么是 agent」这一个词说清楚。English version: What Everyone Gets Wrong About "Agents"

这一年,私信里问我最多的一个问题,来自一群你想不到的人。

不是刚入行的新人。是那些技术很强、天天用 Claude 和 Codex 写代码做产品的人——有大厂出来的,有自己在创业的。按理说是最不该困惑的那批。可他们反复问我同一句:「我到现在……其实也没真搞清楚,什么才算 agent。」

他们不是不懂技术,是被绕晕的。打开任何一个群、任何一场发布会、任何一份融资 PPT,只要跟 LLM 沾一点边,所有人都在说自己「在做 agent」「在架构 agent」。做个总结的叫 agent,套个 prompt 的叫 agent,接个 API 的也叫 agent。这个词被用得太狠,狠到已经什么都指、因此什么都不指。

如果连他们都困惑,那我可以负责任地说:这不是你的知识没跟上,是这个词的语言塌了。

这个困惑我太熟。我最早在公司做客服 Agent 时,第一个卡住我的不是技术,是老板——他张口「我们要做 Agent」,可他嘴里的 agent、供应商嘴里的、我工程上理解的,根本不是同一个东西。四个人开一场会,各自都以为说清楚了,散会全员懵。钱怎么花错、KPI 怎么定错、验收怎么吵起来,根子全在这一个词上。

后来我写了套 L0-L3 的分级尺子去解决它——但那是「怎么定级」的下一步。在定级之前,得先有个更朴素的东西:一个能当场把「真 agent」和「套了层皮的 LLM」分开的判断。 这篇就讲这一件事。

为什么「agent」这个词会塌——四个人嘴里四个意思

同一个词,坐在一张会议桌上的四个人,指的是四个东西:

  • 销售 / 供应商:任何卖了 LLM 能力的东西,从问答到多模态助手,都叫 agent。
  • 业务老板:「比 BOT 更聪明」的东西——能解决问题、能自己跑业务。
  • 工程师:严格意义上,能自主规划、调工具、循环执行的 LLM 系统。
  • 媒体 / 公众号:凡是 LLM + 一个业务场景,都能写成「XX Agent」。

每一方都觉得自己说清楚了。直到老板说「今年要做 agent」,销售拿出「agent 方案」报价,工程师心想「这不就是意图分类 + RAG」,交付时业务方发现「和原来 BOT 没区别」。

词被营销绑架了——因为「agent」比「LLM 功能」好卖、好融资、好写标题。于是它一路膨胀,膨胀到失去了边界。没有边界的词,没法用来做决定。

一个问题,当场分真假:LLM 是在「做决定」,还是在「填空」?

不用记四级框架,不用懂架构。判断一个东西是不是 agent,只问一句:

在你的系统里,LLM 是在决定「下一步去哪」,还是只在某个早就画好的格子里生成内容?

决定 vs 填空:会议纪要里 LLM 只在「总结」那格生成内容(不是 agent);售后客服里 LLM 判意图、决定查哪个系统、决定退款还是转人工(是 agent)

一句话记住:它替你决定,还是替你打字。

拿两个例子对一下就清楚了:

  • 智能会议纪要:录音 → 转写 → LLM 总结 → 推送参会人。流程是死的、早画好了,LLM 只在「总结」那一格里生成内容。它替你打字,不替你决定——不是 agent。
  • 售后客服:客户说「我要退货」,系统要判意图、查订单、查物流、判政策,再决定是退款、走换货、还是转人工——LLM 在好几个节点上决定「下一步去哪」。它替你决定——是 agent。

一句话:它替你决定,还是替你打字。 前者是 agent,后者是「套了 LLM 的自动化」。这两件事都有价值,但它们不是一个东西、不是一个价钱、不该用一套 KPI 考核。

混用不是无害的口误——它让你把钱、KPI、期望全花错

叫错名字的代价,是真金白银的:

  • 钱花错:给一个「填空」型的自动化,付了「决定」型 agent 的价——两者的开发量和预算差一个数量级。
  • KPI 定错:给一个问答机器人挂上「自主决策率」的指标,交付方说达标、业务方说体感差,谁也说服不了谁。
  • 期望错位:老板等着一个「会自己跑业务」的东西,最后拿到的是更口语化的模板短信。

每一方都在浪费钱,每一方都不知道钱是怎么浪费的。 因为大家嘴里的「做好了」,根本不是同一件事。这不是技术问题,是没有共同语言——而共同语言,从把「决定」和「填空」分开开始。

分清真假之后,往哪走

能判断真假,只是第一步。想清楚了,往下就有路:

  • 手上一堆「智能 XX」项目,要给它们定级(不只是 yes / no,是 L0-L3、该投多少钱、挂什么 KPI)→ 审了 28 个 AI 项目,只有 5 个是真 Agent(L0-L3 分级框架)
  • 那几个真 agent,要搭出来、送上线 → 《Agentic AI 落地方法论》系列(L2 架构、Critic、意图分类、怎么测、上线闸门)
  • 上线之后,要让它持续做对、别悄悄变笨 → 《Agent 上线之后》系列(采样、标注、评估、防漂移、数据飞轮)

但所有这些的第一块砖,都是这一个词。在所有人都说自己做 agent 的时代,能说清「什么不是 agent」,本身就是一种竞争力。 下次再有人跟你说「我们在做 agent」,你只要问一句——它替用户决定,还是替用户打字?


如果这篇帮你把「决定 vs 填空」这把尺子拿在手上,回复关键词「Agent 定义」,我把这套判断 + L0-L3 分级尺子一起发给你。

Subscribe for updates

Get the latest AI engineering posts delivered to your inbox.

评论