Agent Harness 横纵分析报告
作者: 丁致宇 NeverGpDzy | 研究时间:2026-04-24
所属领域:AI Agent 工程化 | 研究对象类型:技术范式 / 工程架构
一、一句话定义
Agent Harness 不是一个新 模型,也不只是把 LLM 包一层工具调用接口。它是围绕模型搭起来的一整套执行外骨骼:计划、状态、记忆、文件系统、工具、权限、子任务、评估、回滚、沙箱、人与模型之间的交互规则,都被放进这套外骨骼里。
LangChain 在 2026 年 3 月那篇文章里把话说得很直:今天最好的 Agent,不只是模型更强,而是模型外面的 harness 更成熟。模型提供智能,harness 决定这种智能能不能稳定地落到真实任务里。
这句话看起来像工程细节。
但它其实是 2026 年 Agent 赛道最重要的一次视角切换。
过去大家问的是,哪个模型更聪明。现在越来越多真正做应用的人开始问,聪明的模型到底被放进了什么样的执行系统里。
这个问题一旦问出来,Agent 的竞争图谱就变了。
二、纵向分析:从「模型会想」到「系统会做」
1. 早期的 Agent,其实是一段提示词协议
要理解 harness,不能从 2026 年的 LangChain 文章开始。
得往前退一点。
2022 年前后,大语言模型最让人兴奋的能力,不是它能接 API,也不是它能管理文件系统,而是它开始能把推理过程写出来。Chain-of-Thought prompting 让模型在答案之前 先生成中间推理步骤,ReAct 进一步把推理和行动放到同一个循环里:模型先想一步,再决定调用什么工具,再观察结果,再继续想。
ReAct 这条线非常关键。
因为它把 Agent 的最小形态讲清楚了。一个 Agent 不只是回答问题,它应该能在环境里行动。那时候的环境可能只是搜索引擎、维基百科、计算器,或者一个简单的任务环境。但动作一旦出现,Agent 就不再是纯文本生成器了。
它开始需要一个外部循环。
这个外部循环最早很朴素。提示词里规定几种格式,Thought、Action、Observation。模型按格式输出,外部程序解析出 Action,调用工具,把结果塞回上下文,再让模型继续。今天看这套东西很原始,但它已经埋下了 harness 的种子。
模型不是自己在跑。
有一段外部程序在决定什么时候把工具结果送回去,什么时候停,什么时候认为任务完成,什么时候让模型重试。
Toolformer 也在同一时期回答了另一个问题:模型能不能自己学会什么时候调用工具。它的重点在模型能力,但对工程系统的启发很直接。只要模型开始依赖外部工具,工具调用就不再是附属功能,而会变成模型完成复杂任务的基础设施。
所以 2022 年到 2023 年初,Agent 的核心想象是这样的:模型负责推理,外部工具负责补足模型做不了的事。
这时的 harness 还没有名字。
它只是那段把模型、工具、上下文粘起来的胶水。
2. AutoGPT 时刻,把 Agent 的问题暴露得非常彻底
2023 年,AutoGPT 这类项目把 Agent 推到了大众视野里。
当时很多人第一次看到模型可以自己拆任务、调用搜索、写文件、继续迭代,第一反应就是「这东西是不是要自己干活了」。那段时间的 Agent 叙事非常热,甚至有点过热。大家开始幻想一个目标丢进去,模型自己把整个项目做完。
但很快,问题也暴露出来。
模型会迷路。
它会陷入循环,会忘记前面的约束,会把工具用错,会把一个简单任务拆成一堆没有必要的步骤。它看起来一直在忙,但最后产物经常很虚。
这件事对 Agent 赛道的教育意义很大。
它告诉大家,只让模型自己「想下一步」是不够的。一个真正可用的 Agent 系统,需要任务状态,需要计划结构,需要检查点,需要工具权限,需要失败恢复,需要可观察性。否则你看到的是一台很努力的机器,但它没有方向盘、刹车和仪表盘。
这也是 LangChain 这类框架在早期迅速流行的原因。LangChain 诞生于 2022 年下半年,最开始的价值很直接:把 LLM、Prompt、工具、链式调用、检索这些东西封装起来,让开发者能更快搭应用。它不是一开始就叫 harness,但它解决的正是 harness 的早期问题。
怎么把模型接到工具上。
怎么把多步调用组织起来。
怎么把上下文、检索和输出串成流程。
只是 2023 年的行业还没有完全意识到,真正难的不是把这些能力接起来,而是让它们长期稳定地工作。
3. 2024 年,大家从「Agent 魔法」退回到「Workflow 工程」
2024 年是一个很有意思的转折点。
前一年,市场喜欢讲 autonomous agent。到 2024 年,越来越多开发者开始承认,完全放飞的 Agent 并不好用,能落地的往往是更可控的 workflow。
Anthropic 后来在《Building effective agents》里也用了类似区分:workflow 是通过预定义代码路径编排模型和工具,agent 则让模型动态决定流程。这个区分很重要。它不是在否定 Agent,而是在提醒大家,模型自由度不是越高越好。
LangGraph 正是在这个背景下变得重要。
LangGraph 的定位不是再给开发者一个更花哨的 prompt 模板,而是给 Agent 应用一个可控制的图运行时。状态可以保存,流程可以分支,节点可以重试,人可以插入,执行可以持久化。你可以把模型放在图里的某些节点,让它做判断,但整个系统不是一团自由漂浮的文本。
这就是 harness 开始从「胶水代码」变成「运行时」的过程。
同一时期,Microsoft AutoGen 把多 Agent 对话和协作推到台前,Semantic Kernel 在企业应用里强调 plugin、planner、agent framework,CrewAI 把 agents、tasks、crews、flows 包装成更容易理解的工作自动化模型,LlamaIndex 则从数据和检索出发,把 Agent 放到知识工作和 RAG 场景里。
这些路线看起来不同。
但它们都在回答同一个问题:一个 LLM 如果要长期做事,它外面到底需要多少工程结构。
答案越来越清楚。
需要很多。