本文试图梳理一条主线: AI 领域的每一次工程创新,本质上是在弥补基座模型当前的能力缺口;一旦模型自身补上了缺口,那层创新就从「解决方案」沉降为「基础设施」。泡沫是这个循环加速运转的副产物,而理解这个循环,就是「去魅」——知道什么只是时间窗口内的红利,什么会沉淀为新的地基。
交互的本质:从 Prompt 到 Agent
底层的真相
AI 的交互本质上是人类与模型之间的对话。从实现层面看,这些交互共享同一个底层机制:信息以 token 序列的形式进入上下文窗口,模型基于此产生输出。然而停留在这个层面会丢失分辨力——正如所有软件本质上都是二进制,但这个事实解释不了为什么有操作系统、编译器、应用层的分化。
提示词工程、工具调用、MCP、Skill 等概念之所以存在,正是因为完善提示词本身就像是用汇编语言处理程序——不是不能做,而是效率太低。当问题上升一个复杂度后,每一轮都重新设计优化提示词,这个工作量对于复杂场景的 AI 使用来说是不可接受的。没人会在现代软件工程中使用汇编语言写 Web 服务器或 GUI 窗口,高级语言对人类更友好,但在运行时总会变成汇编指令。同理,这些 AI 工具最终还是会落回到提示词上。
在 Transformer 架构下,大模型本身没有持久化「记忆」。所谓的记忆、上下文、Agent 循环,本质上是不断地在回合之间改写和扩充 token 序列——这是一个实现层面的事实,也是理解 Agent 行为的起点。需要指出的是,检索增强(RAG)、LoRA 微调、以及未来可能出现的非 Transformer 架构(如 Infini-Attention 等)正在模糊这个边界,但在当前的工程实践中这个判断依然成立。
理解这一点有助于去魅:Agent 并没有创造某种魔法般的新机制。
为什么需要抽象层
但同样重要的是,各个抽象层之间存在着意义的跃迁——它们不仅是「提示词的变化形式」,各自解决的是不同层次的问题:
- Tool Calling(函数调用):不仅是提示词,更是模型通过特殊训练获得的函数调用行为模式(将工具描述映射到新生成的 token 序列)。它让模型从「只能说话」变成了「能做事」。
- MCP(Model Context Protocol):价值不只在提示词层面——更重要的是在模型外部定义了统一的协议、传输格式和安全边界。它解决的是多模型多工具的互操作问题,把复杂度从 M×N 降到 M+N。
- Skill:是一种按需加载的提示词注入技术,其核心在于渐进式披露——不在上下文中塞入全部知识,只给标题目录,需要时才展开。它的工程价值在于 token 调度,超越了传统 prompt 的概念。
用不精确但有用的类比:提示词是「汇编语言」,是底层通用 substrate;Tool Calling、MCP、Skill 提供了不同的「高级语言」抽象层,各有各的工程目的,最终都编译到同一个 substrate 上运转。
从黑盒到结构化:交互范式的三层跃迁
从单纯的对话到现代 Agent 工程的迭代,大致可以理解为从黑盒到结构化的演进:
- 对话时代(纯 Prompt):人类用自然语言下指令,模型返回文本。所有逻辑都在 prompt 里隐式表达,无法观测、无法调试、无法复用。
- 编排时代(Workflow + Prompt):人类将任务拆解为多个步骤,用工作流平台串联 LLM 调用与工具调用。逻辑部分显式化,但工作流本身和 prompt 仍是分离的,维护成本高。
- Agent 工程时代(Harness Engineering):模型自身具备了规划、调用工具、反思、纠错的能力,人类不再需要手写工作流,而是通过 AGENTS.md、Skills、MCP 等开放协议定义 Agent 的认知反射弧——模型自主完成任务的拆解和执行,人类只负责设定边界、提供技能库、建立评估与护栏。这是从「教模型每一步怎么做」到「告诉模型目标是什么、能用什么、不能做什么」的转变。
在深入 Agent 的工程细节之前,先退一步看清一个更基础的问题:你现在和 AI 打交道,到底有几种基本模式?
三分类:抽卡、补全、委托
根据我一位朋友的理论,与 AI 交互并产出的过程可以分为以下三类:
| 分类 | 描述 | 示例 |
|---|---|---|
| 抽卡 | 让 AI 直接生成完整的作品,用户几乎无法直接修改产出,或修改代价极大 | AI 生成图片 |
| 补全 | 让 AI 在与用户不断交流中迭代打磨作品,用户和 AI 关注同一维度的产出 | 代码补全、AI 文章创作 |
| 委托 | 用户提任务给 AI,AI 自主拆解、执行、验证,用户只关注验收结果 | 「实现某某功能」、「做一份复习资料」 |
核心区别:补全 vs 委托
补全与 Agent 的本质区别在于维度差异:
- 补全:用户和 AI 关注同一维度的东西。写代码时用户在代码页面上,写一段让 AI 补下一段,注意力始终在代码层面。
- 委托:用户和 AI 的产出不在同一维度。用户提的是更高维度的任务(「做一份复习资料」、「写一个购物车功能」),AI 负责在更低维度实现。用户验收的是功能而非代码。用户与 AI 之间是任务委派关系,而非同维协作。
三种范式的混合使用
三种范式并非孤立存在,而是经常混合使用:
- 让完全不懂编程的人用 web coding 做一个软件,本质上是抽卡——因为出来了也没法改。
- 同一个交互中维度可以动态切换:你用委托生成代码 → 验收不通过 → 你 review 代码并提修改意见,此时又回到了补全模式(同维协作)。
三种范式在同一任务中来回迁移是常态,而非例外。
分类的意义
上述分类框架来自实践经验而非严格理论推导,但对于刚接触 AI 的同学而言,它可以作为理解 AI 交互的实用参考。其核心在于认识到:不同类型的问题,适配不同的交互范式。把抽卡当补全用会陷入无尽的 prompt 调试,把补全当委托用会让交互变得低效。正确的交互范式选择,直接影响使用 AI 的效率和产出质量。
当然,如果有朝一日 AGI 真的实现了,这些分类也就失去了意义——届时 AI 将能自主理解意图、拆解任务并高质量执行,我们就不再需要操心「该用哪种方式跟它说话」这件事了。
Agent 的核心概念
Agent Loop(Agent 的本质)
Agent 的本质就是一个能够调用工具的大语言模型循环(Agent Loop):
- 用户输入 → 大模型判断是否需要调用工具
- 需要 → 模型返回特定 JSON 格式的 Function Call,指定工具名和参数
- 系统执行工具,拿到结果
- 结果进入上下文 → 再次交给大模型
- 大模型继续推理 → 决定是否再次调用工具或输出最终答案
这个循环过程就是 ReAct 模型的具体实现。中间每一步都在不断改写和扩充上下文。
概念拆解
ReAct(推理 + 行动)
ReAct 是一种思想(而非具体框架),类似于「面向对象编程」是一种思想。它描述的是:先推理思考,再根据推理结果采取行动,观察结果后又继续推理的循环过程。Codex、Claude Code、Copilot 等工具背后的「思考→调用工具→验证」流程,都是 ReAct 的实现。
Chain-of-Thought(思维链)
思维链是 ReAct 的进阶体现。让模型在输出答案之前先写出推导过程,可以显著提高最终结果的准确性。最简单的体现就是:你可以让模型直接输答案,也可以让模型「先思考再输出答案」。
MCP(Model Context Protocol)
MCP 本质上就是工具调用的升级版协议。它解决的核心问题是各家模型工具调用格式不统一:
- 旧模式:N 个模型 × M 个工具 = N×M 套代码
- MCP 模式:所有模型接入 MCP 协议 + 所有工具接入 MCP 协议 = N+M 复杂度
MCP 把「怎么写工具」的格式标准化了,降低了重复造轮子的成本。
Skill
Skill 是另一种与 MCP 不同的概念:
- MCP 是工具调用的标准化协议——让模型知道「有哪些工具可用、怎么调」
- Skill 是提示词注入技术——把特定领域的知识或说明书打包起来,按需加载
Skill 的核心机制是渐进式披露(Progressive Disclosure)。它不会在一开始就把所有信息塞进上下文,而是只给模型一个标题或说明书目录,在模型遇到相关问题时才动态加载详细内容。这大幅节约了 token 和上下文窗口。
类比:Skill = 工具箱的说明书(按需翻看),MCP = 工具箱本身的接口规范。
AGI(通用人工智能)
AGI(通用人工智能)是一种尚处于设想之中的 AI 终极形态。AGI 通常被定义为能够完成除了生孩子以外(说不定也可以?)几乎所有人类可以完成的任务的人工智能系统——无论这些任务是体力、脑力还是创造性层面的——并且至少在所有可量化的维度上达到或超越人类水平。
目前学界和工业界对 AGI 的定义尚未统一,但大体包含以下几个核心特征:
- 通用性:不是单一领域的专家(如围棋、绘画、编程),而是能够跨领域迁移认知能力,像人类一样「学什么都能学会」
- 自主性:能够自主设定目标、拆解任务、调用资源、验证结果,无需人类逐级干预
- 可自我迭代:能够在与环境的交互中持续学习、自我修正、涌现新能力,而非依赖开发者手动更新模型参数
- 认知通感:能打通文字、图像、声音、触觉等模态之间的认知隔阂,形成统一的世界模型
从 Agent 的角度来看,当前的 Agent 架构(ReAct 循环 + 工具调用 + MCP + Skill)其实可以被看作通向 AGI 的一种工程化尝试——用外部系统补偿模型自身的局限性(记忆不足、推理不可靠、工具调用不稳定)。当模型自身具备了足够的能力后,这些外部补偿机制会被逐一吸纳入模型本体。
如果 AGI 真的实现,当前讨论的所有提示词技巧、工作流编排、Agent 协议、Skill 工程等中间层都将失去独立存在的价值——就像 AGI 出现后不再需要「怎么用 AI」这门课一样。但在这之前,这些工程化手段依然是通往 AGI 道路上必不可少的阶梯。这实际上也是我们下一节讨论的内容。
迭代规律与泡沫
功能迭代:「上一代的解决方案」会变成「下一代的基础设施」
曾几何时在 ChatGPT 刚刚露出苗头的几年,AI 还只能用对话和人交互。彼时诞生了一个特殊岗位——提示词工程师(Prompt Engineer),他们精于研究如何措辞、如何构造 few-shot examples、如何设计思维链来「哄骗」模型输出更精准的结果。与此同时,低代码工作流平台(如 LangFlow、Dify、Coze 等)涌现,以可视化拖拽呈现多步编排,让非技术人员也能搭建工作流。
然而随着基座模型能力的快速迭代,这两层中间产物逐渐被抹平。模型原生具备了指令跟随能力后,精心构造的提示词模板变得不再必要;模型原生支持了 Function Calling / Tool Use 之后,低代码工作流平台中预置的编排模式开始被模型内化为自身的推理步骤。提示词工程和低代码平台本质上都是在弥补模型当时没有的能力,一旦模型补上了,它们就失去了存在的根基。「每一次范式创新,都是在兑现基座模型已积累但未释放的能力余量」。
历史上反复出现的模式:
| 时代 | 热门概念/岗位 | 后续命运 |
|---|---|---|
| GPT 早期 | 提示词工程师(Prompt Engineer) | 模型听懂了人话,复杂模板不再必要 |
| 低代码工作流时期 | LangFlow、Dify、Coze | 模型原生支持 Function Calling,编排被内化 |
| OPC 概念期 | OpenClaw(曾引发讨论热潮) | 已被集成到飞书、QQ、微信,变成基础设施 |
OpenClaw 的案例尤为典型:虽然产品做得差强人意(工作质量、冷启动体验和安全性都不够好,这是它自身的问题),但「把工具交给 AI」这个概念本身很好。现在它已经没什么讨论热度了,不是因为过气,而是因为已变成基础设施——新出的 Hermes 有、飞书有、甚至 QQ 和微信都集成了类似功能。从一个加分项变成了必备项。这意味着 OpenClaw 的消亡有双重原因:一部分是被基础设施化吸收,一部分是自身产品力不足。
就像电脑的 GPU——在上世纪末还不是必备,现在已是电脑核心部件。这个过程不是孤立的: 《准确把握人工智能发展前沿与竞争格局》 一文中提出了「模数共振」概念——即大模型(数字层)和硬件算力(物理层)交替拉动、互相加速的螺旋上升——说明就连硬件生态也会被裹挟进这一轮轮的迭代进化之中。未来本地推理硬件模块大概率也会经历类似的过程。
泡沫的结构性来源
以上还只是从工程观察的角度看。如果从政治经济学的角度看,这个泡沫还有更深层的结构原因——当前 AI 泡沫至少有两个结构性的来源:
信息认知速度 vs 产品迭代速度的矛盾
大语言模型作为新型生产力的代表,其核心特征是「通用性」和「规模效应」——一次训练,无限复制,边际成本趋近于零。这是一种高度社会化、高度集约化的生产资料,天然倾向于打破私有制下的重复劳动壁垒。
这也就一定程度上导致 AI 产品和技术栈迭代极快,而人的信息消化速度是有限的。大量的「热点概念」火起来时已经落后于技术前沿,等大众认知跟上来时它已经过时或变成基础设施。每一次模型能力跃迁,都是一次生产力对旧生产关系的暴力扬弃。提示词工程、低代码工作流、协议标准等属于上层建筑范畴,当基座模型这一「生产力基础」发生质变时,它们必然被重塑或淘汰。泡沫正是这个扬弃过程的副产物:人们对旧生产关系框架下「可获利岗位」的预期,被新型生产力的实际释放节奏甩在了后面。
资本驱动的预期膨胀
2023-2026 年全球在 GPU 集群和数据中心上的投资规模远超当前产品收入所能支撑的回报。当资本预期远跑在实际技术进展前面时,泡沫是不可避免的——这与信息认知速度无关,是资本周期本身的规律。
换个更具体的视角:建一座数据中心需要海量硬件投入,但运行一个 AI 模型几乎不需要多少人力。当行业越来越多的环节被模型吸收——提示词工程被内化、低代码平台被绕开——一边是算力成本飙升,一边是用人需求萎缩。而下游能消化这些算力的应用和付费场景还没有同步膨胀,投入和产出之间的缺口越来越大——这正是泡沫的资本逻辑根源。
命运法则
「手推磨产生封建主,蒸汽磨产生工业资本家」——随着生产力的演进,特定历史阶段的生产关系(以及依附于其上的职业岗位)终将被取代。AI 不是这个规律的例外,只是这个规律在数字时代的最新一轮表达。
提示词工程师的兴起与退场是这轮浪潮中最具象征意义的案例:一个岗位从诞生到被侵蚀,只用了不到三年。高速增长的需求背后,是不知道何时会出现的下一轮基础设施迭代对现有秩序重新洗牌的毁灭性打击。因此从务实的角度来说,AI 开发本身作为一个技能是很吃香的,但如果把职业生命押注在某一层抽象上——无论是提示词模板、低代码编排,还是某个具体协议,甚至是现在所谓「前景一片光明」的 Agent 工程师——都是危险的。
但这并不是让人逃避。生产力是最革命、最活跃的因素,传统软件工程的生产关系也终将被 AI 生产力的持续释放所穿透。问题不在于是否会被改变,而在于改变发生时,我们是否理解了这个规律的运作方式。
AI 的命运法则其实和之前无数行业的发展规律都是一致的——上一层的解决方案终将成为下一层的基础设施——只是前所未有的发展速度和资本的超前投资把这个周期压缩到了肉眼可见的尺度。
理解这一点,才能对 AI 去魅:知道什么只是时间窗口内的红利,什么会沉淀为下一层地基。