未来，什么才是 AI“正确的使用方式”

发布时间：2026/6/26 15:04:07

作者vivo 互联网项目团队- Jiang Zuohan本文以“大模型不是马而是大脑”为核心视角重新定义 AI 系统结构指出当前问题不在模型能力而在 Agent 作为“身体”的不成熟分析感知、行动、反馈与调度等工程缺陷并将 Harness 类系统比作 ICU 的生命维持机制强调当下混乱源于最佳实践尚未收敛认为当前阶段本质是“不会用工具”的早期人类正在通过实践逐步定义 AI 的正确使用方式。大模型不是马是大脑而且是一颗刚刚觉醒的大脑。1分钟看图掌握核心要点一、先扔掉“大模型是马Harness 是马鞍”这个比喻最近 Harness Engineering 很火随之而来的一个比喻也开始流传即“大模型是马Harness 是马鞍”。这个比喻并不准确。马的特点是有独立意志需要驯服、约束、引导骑手与马之间本质上是对抗与协商的关系。但 AI 系统并不是这样构建的。我们不会通过“驯服”模型来获得能力也不会通过“抽一鞭子”让模型更听话。更关键的是这个比喻隐含了一个前提即大模型是原始、笨重、需要约束的对象。但事实恰恰相反。大模型是这几年出现过最复杂的智能器官之一它更像大脑而不是牲畜。如果必须给出一个更接近现实的比喻那么大模型更像大脑而 Agent 更像身体。这个比喻的好处在于它能更好地解释当前 AI 系统真正的问题问题不在于“大脑不够聪明”而在于“身体还没有发育完整”。二、AI 的发展更像一次大脑先于身体的超速进化从更大的时间尺度来看生命并不是先有大脑再有身体而是二者长期协同进化。从最初的应激反应到神经节到更复杂的感知系统再到真正支持推理与规划的大脑皮层生命用了极长时间才完成这条演化路径。与此同时眼睛、耳朵、四肢、神经系统也在同步演进。身体并不是大脑的容器而是大脑感知世界、作用世界的基础设施。人类技术的发展也具有类似特征。农业社会的演进以千年计工业革命以百年计信息时代以几十年计。直到最近十几年技术演进的速度突然发生了变化。城市让信息密度上升网络让信息流动突破地理限制导航、推荐、即时通讯等系统则将大量“高频认知动作”沉淀为可直接调用的最佳实践。从这个角度看AI 并不是简单的工具升级而是一次更大规模的认知能力爆炸。从 2012 年 AlexNet 到今天短短十几年AI 已经完成了从识别、理解、生成到多模态处理、代码生成、工具调用的一整轮跨越。2016 年 AlphaGo 击败李世石2017 年击败柯洁就是一个非常清晰的分水岭这意味着“脑子已经亮了”。此后的模型演进则更加剧烈。ChatGPT、GPT-4、Claude、Gemini 等模型快速迭代聊天对话框、代码解释器、API 调用、工作流、多 Agent 协作等生态也同步出现。从表面看AI 好像已经拥有了眼睛、耳朵、手和脚。但问题在于这些器官虽然存在却远未形成成熟、稳定、协调的身体系统。三、当前 Agent 系统的核心问题是身体没有长好如果说大模型是大脑那么当前很多 Agent 系统最真实的状态就是“大脑发育过快但身体还处于早产儿阶段”。这个问题主要体现在四个方面。3.1 感官系统不成熟多模态模型、语音识别、文档理解、网页解析这些能力解决的是“看得见、听得见”的问题但并不自动等于“看得清、听得懂”。例如PDF 解析可能出现目录错位、表格断裂、图文顺序混乱网页抓取可能带入大量噪声正文识别不完整图像识别可能遗漏关键元素语音转写虽然准确但场景上下文缺失导致语义理解偏差这些问题都说明一件事当前 AI 系统具备输入能力但输入质量并不稳定缺少可靠的前处理与上下文定位机制。换句话说眼睛已经有了但视网膜还没有长好。3.2 运动系统不协调工具调用是 Agent 最核心的行动能力之一。它可以调用 API、访问网页、执行代码、操作应用看起来已经具备“手脚”。但现实情况是这套运动系统远不稳定。常见问题包括参数填写错误导致 API 调用失败UI 操作偏移点击目标错误执行环境不一致代码运行失败操作完成后缺少反馈确认无法形成闭环这类问题并不是“不会动”而是“动作不协调”。其本质类似于神经肌肉接头尚未建立稳定连接导致系统虽然能发出动作指令但动作质量和反馈闭环都不可靠。3.3 资源调度系统粗糙大模型是高耗能系统。上下文窗口、Token、推理成本、延迟本质上都属于资源调度问题。当前很多 Agent 系统在资源使用上仍然比较原始主要表现为两个极端信息给少了上下文不足推理链条断裂信息给多了提示词过载重点被淹没系统性能下降这类问题与其说是“模型能力不够”不如说是“供血系统不成熟”。3.4 自主神经系统缺失这是最关键的一点。人体有大量后台自动调节机制例如心跳、呼吸、体温控制、消化等这些并不需要人显式下达指令。而当前很多 Agent 系统恰恰缺少这种后台维持能力。例如错误恢复机制不完善任务重试依赖人工规则堆叠上下文清理与压缩缺乏稳定策略降级与兜底方案不系统健康检查与异常监控不完整这些能力本应成为系统级基础设施但在当前阶段很多地方仍然依赖硬编码 if-else 维持运行。因此当前 Agent 的问题不是大脑不够强而是身体系统还远未形成完整的生理结构。四、AI 领域当前最大的真空是最佳实践的真空技术快速爆炸之后往往都会出现一个共同问题即能力增长快于方法沉淀。城市的发展不是一开始就有交通规则、建筑规范和成熟基础设施。互联网的发展也不是一开始就有导航、搜索、推荐这些稳定形态。AI 同样如此。从 AlphaGo 到现在不过十年从 ChatGPT 真正进入大众视野到现在不过数年。这个阶段仍然属于方法尚未收敛、实践仍在分化的时期。当前很多常见方法都带有明显的过渡特征。4.1 提示工程更像“口头问路”Prompt Engineering 的特点是依赖经验、依赖表达技巧、依赖具体模型版本。同一个任务提示词稍有变化或者更换模型、上下文、温度参数输出质量就会明显不同。这说明提示工程更像临时性的沟通技巧而不是稳定的系统方法。4.2 RAG 更像“静态地图”RAG 解决的是“如何把外部知识接入模型”的问题但它并不天然解决知识是否最新、检索是否精准、路径是否动态优化的问题。地图当然重要但地图不等于实时路况。因此 RAG 虽然是重要组成部分但仍然不能等同于完整认知系统。4.3 Agent 框架更像“拼装义肢”当前各类 Agent 框架普遍存在接口标准不统一、工具接入方式不一致、状态管理能力分散的问题。它们都在尝试解决“如何让感知、认知、行动形成闭环”这个问题但目前大多数仍处于拼装阶段距离真正统一、稳定、低心智负担的工程体系还有距离。因此当前 AI 工程真正缺的不是又一个新概念而是以下几类更基础的东西Agent 的系统解剖学感知、认知、行动如何协同Agent 的诊断方法论系统故障时应先查脑子还是先查身体Agent 的康复机制如何让系统从失败中形成稳定经验而不是每次重新推理这些问题本质上都不是纯算法问题而是工程体系问题。而工程体系问题从来无法靠一次设计完成它只能在真实场景中被反复验证、修正和沉淀。五、Harness 的真正角色不是马鞍而是 ICU如果继续沿用“大脑身体”这个模型那么 Harness Engineering 的角色就比较清晰了。Harness 不是马鞍。马鞍服务的是已经能够奔跑的健康马匹而当前很多 Agent 系统并不处于这个阶段。它们更像一个脑部能力超前成熟、但身体发育不稳定的早产儿。在这种情况下系统首先需要的不是缰绳而是监护。因此Harness 更像 ICU。它真正提供的能力包括生命周期监测观测 Token 消耗、延迟、错误率、上下文压力资源维持在上下文不足时补充信息在信息过载时做清理与压缩信号调控过滤噪声输入约束输出动作的风险故障抢救当某一模块失效时快速切换备用路径维持整体系统继续运行这些能力并不华丽但非常关键。因为这不是在“控制大脑”而是在维持身体的基本生命体征。只有先让系统稳定活着后续才谈得上持续成长与自我优化。六、AI 当前的状态不是失败而是早期常态当 AlphaGo 击败柯洁时很多人看到的是 AI 的智力突破。而从系统角度看这意味着另一件事大脑已经超前成熟但身体仍处在婴儿期。这并不是坏事而是技术革命早期非常典型的状态。城市不是一天形成的导航系统不是第一版就稳定的推荐系统也经历了很长时间的试错与收敛。AI 的 Agent 系统同样要经历这个过程只不过它的迭代速度比过去任何基础设施都更快。以前很多工程体系以年为单位进化现在很多体系以周为单位迭代。因此我们会感受到一种非常强烈的矛盾感一方面模型能力已经强到超出预期另一方面系统工程仍然脆弱、易碎、缺乏稳定性这两个判断并不冲突它们同时成立。所以当前最重要的不是假装这套体系已经成熟而是承认现实我们确实拥有一颗极其聪明的大脑但它仍然被绑在一副尚未发育成熟的身体上。Harness 这类系统就是轮椅、拐杖、监护仪的集合。它并不完美但在今天是必要条件。因为在身体能够稳定奔跑之前系统首先需要被维持、被保护、被监护。而所谓最佳实践也不会在理论层面被一次性设计出来。它只会在大量真实任务、真实故障、真实交付中慢慢浮现。七、AI 生成 PPT是观察这个问题的一个典型场景如果希望找一个最能体现 Agent 工程问题的场景那么 AI 生成 PPT 是非常典型的样本。表面上看这好像只是“让模型写一套 20 页内容”的问题。但实际上它是一个横跨需求理解、信息补全、结构组织、页面生成、视觉匹配、在线编辑和最终交付的系统工程。一个真正可落地的 AI PPT 项目通常至少包含以下几个环节1需求输入输入主题、受众、页数范围、场景模板、原始资料等信息。2研究补全当原始信息不足或存在时效问题时需要通过研究系统补齐最新信息。3大纲生成先形成结构化大纲而不是直接逐页生成页面。4任务拆解将大纲拆解为可追踪任务明确当前进度、失败节点和回退点。5页面与视觉生成根据页面类型生成内容、版式、配图与模板风格。6编辑与交付支持在线调整、讲稿补充、备注生成以及 PDF、PPTX、HTML 等多格式导出。这条链路说明一件事AI 生成 PPT 的难点从来不只是写作能力而是整条链路是否协调。如果用前文的比喻来对应文档解析是感官系统研究能力是外部记忆大纲生成是前额叶任务板是神经系统模板、版式、配图是骨架与皮肤导出、备注、分享是动作真正落到外部世界的手脚因此AI 生成 PPT 这个场景非常直观地说明当我们说 Agent 需要“身体”时说的并不是抽象概念而是一整套必须协同工作的工程器官。八、AI 当前的状态不是失败而是早期常态如果把视角再拉近一点vivoPPT 这个项目本身就是这套判断的一个样本。这条链路并不是一开始就设计完整的而是在开发过程中一步步收敛出来的。8.1 最开始是“直接生成大纲提供很多模板”这是一个很自然的起点。用户输入一个主题系统先生成大纲然后再让用户从很多模板里选一个看起来既智能又灵活。但这条路很快暴露出问题。一方面大纲本身还不稳定另一方面模板又是一个额外变量。内容结构还没有站稳样式选择又引入第二层不确定性最后就会出现一个结果系统看起来很自由但实际输出并不稳定用户也很难判断问题到底出在内容还是出在模板。换句话说这种方案把“内容规划”和“视觉选择”同时交给了模型与用户表面上选择变多了实际上系统复杂度也同步上升了。8.2 后来逐步收敛成“固定模板内容优先”所以项目后面做了一次很关键的收敛即不再把模板当成一个完全开放变量而是将模板整理成固定方案甚至进一步强调“单模板、内容优先”。这个变化背后的核心判断是对于大多数汇报场景真正难的不是“选哪个模板”而是“这一页到底讲什么”。因此系统开始要求用户输入更完整的原始材料而不是只输入一句主题。会议纪要、项目总结、方案全文、调研结论、发言草稿这些长文本被尽可能完整地输入进来系统先整理汇报思路再生成大纲再决定每页职责。这实际上是在重新定义输入层系统不再假设模型可以凭一个标题完成高质量生成而是要求用户提供足够多的原文让模型先理解内容再组织内容。8.3 再往后生成目标从“直接出页面”变成了“先生成 DSL”当模板固定之后第二个问题就变得非常明显如果系统直接生成最终页面无论是 HTML 还是最终渲染结果后续编辑、校验、复用、导出都很困难。于是项目继续往前收敛开始引入 DSL 作为中间层。这一步很重要。因为 DSL 的本质不是“换一种格式生成”而是给系统补了一个结构化中间表示层。页面不再只是最终结果而是先被拆成可编辑、可编译、可检查的语义结构。这样模板、内容、布局、组件、导出之间才有了稳定接口后面的编辑器、预览、导出、AI 改写才真正有了统一对象。从工程角度看这一步相当于给“页面生成”补上了骨架。8.4 大模型微调当输入从纯文本扩展到富文本之后系统获得了更强的表达能力但同时也立刻遇到了新的问题。富文本并不只是多了粗体、标题和列表它还带来了图片、表格、引用、上下文层级这些信息。尤其是图片系统不能只把它当成一个附件。一张富文本里的图片如果只保留一个 src 地址模型其实什么都不知道。它不知道图片前后在讲什么不知道图注是什么也不知道它属于哪一个章节、哪一页语义、哪一个主题。因此项目后面又继续补了一层上下文解析除了保留富文本的 HTML 和纯文本内容之外还会抽取标题层级、列表结构、表格结构对于图片还要结合标题、图注、相邻段落、块级文本去生成语义摘要、主题标签和素材描述再把它转成项目素材。这一步说明得更直接一点当输入能力增强之后系统并不会自动变强反而会倒逼你把“感官系统”做得更完整。图片不是“看见了”就算处理完只有把它放回上下文中它才真正变成模型可用的信息。从这个开发过程可以看出真正沉淀下来的最佳实践通常不是一个万能 Prompt而是几条简单但重要的流程纪律先研究再写作先大纲再页面先任务化再并行化先可编辑再可交付九、最佳实践从来不是设计出来的所以当前阶段看起来混乱其实并不奇怪。有人强调 Prompt有人强调 Agent有人做 Memory有人做 Workflow大家都在尝试不同路径但整体上还没有完全收敛。这并不是因为大家理解不够而是因为最佳实践本来就不是先验存在的。它不是通过讨论设计出来的而是在真实使用中逐渐显现出来的。只有在大量真实场景中反复试错之后系统才会逐渐形成共识哪些步骤必须保留哪些能力必须下沉为基础设施哪些风险必须被兜底哪些分工方式最稳定最终所谓最佳实践会从“经验”慢慢沉淀为“直觉”。十、未来不会再讨论“要不要用 AI”也许在未来我们不会再讨论“要不要用 Agent”就像今天我们不会认真讨论“要不要用导航”一样。这些选择最终会从“技术选项”变成“默认动作”。真正的变化也不会发生在模型参数再扩大一点或者排行榜再上升一点的时候。真正的变化会发生在我们开始真正理解这整套系统什么时候让它思考什么时候让它行动什么时候借助工具什么时候交给流程什么时候让人介入到那时AI 才会真正从一个“能力集合”演进为一个“可长期使用的系统”。十一、我们正在经历一个“还不会用工具”的时代而现在我们正处在这个阶段的早期。工具已经足够强大但使用方式还没有完全形成。这有点像人类刚拿到地图、刚拥有汽车、刚接触互联网的时期。工具本身已经具备巨大潜力但对应的使用方法、工程规范和社会最佳实践都还在形成中。这也是一个非常少见的阶段。因为在这个阶段里人们不仅是在使用工具也在参与定义工具未来的正确使用方式。换句话说我们正在参与回答一个问题未来什么才是 AI“正确的使用方式”注文章创作有 AI辅助生命体进化视角与技术爆炸框架由笔者提出。

相关新闻