下一个AI较量场,为什么是Harness?

文 | 深流筹商所,作家 | 萧樱
\"Agents aren't hard; the Harness is hard.\"
2026 年 2 月,当 OpenAI 工程师 Ryan Lopopolo 用这句话笼统他刚完成的样式时,大多数东谈主还不睬解他的感叹。他带着一个不到 10 东谈主的小团队,用 5 个月技术,让 Codex 写出了特出 100 万行代码,全程莫得手敲一滑。这套能让模子可靠地职责的系统,被他称之为 \"Harness Engineering\"。
据公开信息,Codex的周活跃用户在3月初如故160万摆布,但到了5月,仍是特出了400万。
除了模子的升级,Codex的Harness才调也为它赢来不少用户。比如,有设备者测试发现,在一个换取任务上,Claude Code奢靡的token约是 Codex的3到4倍。差距不全在模子自己,也和 Harness 想象关联:Codex 倾向于把任务赶走并行跑,每个子任务高下文零丁,互不沾污。
如今 AI 圈仍是平素招供 \"Agent = Model + Harness\" 这一条公式。淌若 Agent 是一辆车,大模子即是提供马力的发动机。莫得发动机,一切无从谈起。但一台裸发动机放在地上,你也没法开它开拔。Harness,即是把\"发动机\"变成\"整车\"的那套系统工程。
就在本月,DeepSeek 发布了两个招聘岗亭:Harness 居品司理和 Harness 研发工程师。DeepSeek 资深筹商员陈德里在应对媒体上暗意,这是为了组建一个 Harness 团队,且场所是\"对标 Claude Code,作念 DeepSeek Code Harness\"。这一家以模子层突破著称的公司,也把下一步的筹码押在了 Harness 上。
当年几年,模子才调是稀缺资源。但随着模子才调基础纪律化,最初变得难以督察最庞杂模子,保质期越来越短了,模子除外的那一层 Harness 愈发进攻。
模子才调依然是基本,但Harness仍是变成AI竞争的关节较量场。
一、Harness 洗牌行业三层结构
Harness 开动反向优化模子,仅仅洗牌面前统共这个词 AI 行业结构的早期信号。
当年几年,AI 产业被默许分红三层结构:基础纪律层、模子层和专揽层。三层各司其职,价值分派相对清澈。但面前Harness开动影响这个“利益蛋糕”的分派。
模子公司起首感受到是“扫尾权”被拿走了一部分。
当年模子公司既教育模子,又决定模子若何被用。卖 API、卖 Playground,模子才调的扫尾皆备在我方手里。模子强,就卖得贵,逻辑简短。
Harness 出现后,这个逻辑松动了。在 DeepSeek官方决定下场作念 Harness 之前,设备者社区里的一个 \"DeepSeek版Claude Code\"(名为\"DeepSeek-TUI\")备受接待,面前Stars已特出3万。这是因为归拢个 DeepSeek 版块,跑在一个精调的 code Harness 里,能进展更好的水准,而跑在一个神圣的“壳”里,才调会大打扣头。
模子自己莫得变化,但Harness会影响模子才调扫尾的区间。模子公司阻隔训出来的才调,淌若拱手让给别东谈主的Harness 来联贯,最终订价权可能会在别东谈主手上。尽头于我方成了供货商,少赚一层,货妙品差还由渠谈说了算。
专揽层的变化发生得更隐敝讲理慢一些。当年不少专揽公司的护城河是懂业务。这种\"懂\"藏在居品司理的判断里、在多年打磨的交互细节里、在不时迭代的功能逻辑里。但面前这些东西开动往Harness搬。举例,SaaS 巨头 Salesforce 把销售陈迹跟踪的轨范当作固化进去,Claude Code 把代码评审的轨范历程嵌进去。当年靠东谈主明白和千里淀的东西,面前到了 Harness 这一层。
本年 5 月,老牌客服 SaaS 公司 Intercom 甚而径直更名为 Fin,用自家 AI Agent 居品的名字替换了谋划 15 年的品牌,亚洲精品久久久久午夜aⅴ网址开动围绕 Harness 重构。那些还没开动嗜好Harness的专揽公司,几年后回头看,可能会发现我方的业务护城河仍是被偷偷掏空。业务明白一朝被 Harness 固化为可实施的 Agent 当作,这套明白的统共权,就随着 Harness 走了,不再随着东谈主走。
再往上走,基础纪律层也没法不闻不问,因为算力阛阓的需求会被反向界说。
当年英伟达等公司的居品想象,很猛进程上由大都量、踏实负载的模子教育来驱动。但随着Harness的晋升,Agent推理正成为算力阛阓的新主导力量。Agent 具备长链路、屡次调用、带器具、带挂念的特征,其推理负载有长周期、不可展望等动态变化,需要不同的调整形状、内存架构和相聚拓扑。英伟达在2026年发布的Vera Rubin平台,即是专为智能体和大鸿沟推理时间而构建。Harness 开动反过来影响芯片层的下一代居品形态。
这些变化叠在沿路,让AI产业链的每一层利益分派,都要开动重新谈判。
二、Harness 自然长在场景里
Harness 自身里面,也在发生疏化。这种分化的根源,藏在 Harness 的一个根人性特色里。
Ryan Lopopolo团队最初认为,唯有把模子接上Harness就行,但背面发现,Harness不是一个即插可用的插件。Harness 不是一次想象好就放在那里的,它必须在确凿场景的失败里磨出来。莫得这种确凿场景去纠偏,Harness就会僵化。
这即是为什么Harness自然长在场景里。而不同公司的业务场景天差地远,Harness也就会分化。
起初被考证、也最快能让 Harness 跑通的是代码场景。Harness 在代码场景里跑出来的每一条轨迹,都自带响应信号,模子不错从中学习。这是为什么 Anthropic 和 OpenAI 异途同归把 Harness 的第一战放在代码场景上。
但代码除外的寰宇莫得编译器,要复杂得多。在客服答疑、售后就业、风控判断等非代码场景里,莫得一个自动化的客不雅轨范能短暂给出对错。离开了自然考证器,华丽的外出在线观看响应信号要么靠东谈主工去工标注和复盘,但本钱高、迭代慢;要么靠确凿业务恶果响应,这就需要离业务饱和近、跑得饱和久。Harness 作念得好的玩家,一定是离确凿业务响应最近的。
永远来看,模子战胜还会变得更强。面前 Harness 面对的失败重试、高下文截断等需要故意工程来处理的问题,将来可能模子我方就能贬责。但 Harness 长在确凿业务场景里、靠确凿失败磨出来的部分,是模子再强也代替不了的。模子变强会消解 Harness 的工程层,但消解不掉 Harness 的场景层。
有确凿业务响应的玩家,仍是开动在 Harness 上线路出上风。
比如,SaaS 巨头 Salesforce 在 CRM 场景里有几十年千里淀的客户行动数据、销售漏斗响应、就业工单记载。最新财年的数据线路,公司的Agentforce仍是按\"Agent 对话\"收费,ARR 达 8 亿好意思元,全年增速 169%,累计超 2.9 万笔来回,已走互市业扫尾。
面前国内日活第一的 Agent 腾讯 WorkBuddy,亦然很早就押注 Harness 的玩家。从团队决定作念 claw 模式到全量上线,只用了一个星期。能跑得这样快,是因为WorkBuddy的Harness早就在腾讯里面搭建好。在面向阛阓之前,WorkBuddy就被里面2000多东谈主使用过。职工把会议纪要、跨部门伙同、邮件起草、文档生成这些日常职责交给它,每一次使用和响应都被千里淀回Harness里,将Harness打磨得更好。
然而,这不料味着各家公司在各自界说和制造皆备孤苦孤身一人、只颖慧一件事的 Agent 居品。而是在将来的AI竞争中,当模子要参加不同业业的业务深水区时,必须放入不同的 Harness 里去检修。
这些检修的分化不仅是Agent路子的遴荐互异,更是企业各自护城河的重塑。代码、协同办公、电商来回等等,不同的场景长出皆备不同的 Harness。由于非代码场景的响应信号极难跨行业复制,在一个场景里磨出来的 Harness,无法径直搬到另一个场景里发力。那么,领有荒谬业务闭环的玩家,会在我方的领域内树立起壁垒,外来者很难通过单纯堆叠算力或模子鸿沟来蹂躏这种最初。
三、轨范化与智能体生态之争
当 Agent 在不同的 Harness 里检修,长出了不同的公法和行事作风,它们最终需要\"相互言语\"。
淌若每家都用专有条约、专有调用形状,统共这个词 Agent 生态就会堕入 PC 时间软件之间不可互通、互联网时间浏览器各自实现 HTML 的零星。为此,接下来 Agent 竞争一定会从场景层的工程飞腾到条约和轨范层面,这是 Agent 大鸿沟互通的基础抵御。
Agent 的轨范化竞争仍是开动。Anthropic在2024年底推出MCP(Model Context Protocol),把模子如何接入器具、如何得回高下文这件事抽象成行业条约;Google 在2025年4月推出A2A(Agent2Agent)条约,让多个 Agent 之间能跨厂商伙同。
毕竟,当Agent开动大鸿沟互通,先入者变成的条约蕴蓄合成为其后者的参加门槛。谁先把条约铺开、把生态接进来、把设备者留下,谁就在这一层拿到了同样 Android、iOS 的平台位。
在国内,腾讯、阿里、字节都在跟进,幸免在事实轨范除外掉队。腾讯云智能体设备平台全面维持MCP并上线MCP插件广场;阿里百真金不怕火平台已接入MCP;字节旗下的Trae和Coze也在全面拥抱和兼容MCP。
条约的轨范化远不啻贬责互通这件事自己。条约决定的还有能否让用户安全、信任地使用Agent,最终能否实现大鸿沟买卖化落地。
当Agent能代你下单、付款、签合同期,过程中的风险若何把控?本年5月,中国信通院结合腾讯、华为、中兴、三大运营商和港中深共同发布的 ATH 条约,开动回报这些问题。这个条约的中枢想路是通过用户、Agent 与就业的三方持手来战胜权限鸿沟,权限取杂乱,任何一方缺席都无法通过。
与条约之争同期发生的,还有 Agent 伙同基础纪律的树立。
当十个 Agent 要伙同,光有轨范条约还不够。多个 Agent 之间的调整、分享内存、权限鸿沟、高下文路由、安全沙箱等问题是条约层面不可皆备贬责的问题,需要一套底层基础纪律联贯。
这一层基础纪律最终会长成什么样,面前莫得共鸣。一种可能是被现存末端进一步集成,它们先拿到屏幕、系统算力和硬件权限,再去调用 Agent;另一种可能是演化出零丁的智能体生态,同样于PC时间的 Windows 或挪动时间的 Android。
还有一种旅途是在已有的超等生态里长出来,这亦然面前外界对微信 Agent 最大的想象空间。腾讯高管在多个公开场所提过微信 Agent 的场所。尽管面前还莫得认真居品形态,但淌若把 14 亿微信用户、450 万小纪律,以及覆盖从支付到政务的业务场景,自己即是一张现成的Agent伙同相聚。Agent不需要重新“搭场子”,它接入的是仍是跑通的确凿业务,顺着这张网往前走就行。
条约界说Agent之间如何互通,基础纪律负责让Agent能踏实运行。不错看到,面前跑在前边的AI公司都在同期酌量这两件事,为霸占Agent时间的竞争上风作念准备。
结语
当年看一家 AI 公司的竞争力,公共习尚性看它的模子有多强、榜单上的分数有多高、烧的钱有几许。但这些问题,只可告诉你有莫得”发动机”,以及“发动机作念得若何”。
然而,面前行业仍是意志到这一套评估形状不够全面和实用。整车要跑开拔,还需要一套安全可用的“整车系统”。当OpenAI和DeepSeek等模子层也在补皆Agent所需要的Harness才调时,其实仍是揭示了AI竞争新的评估形状:Harness能不可反向优化自家模子、有莫得确凿业务场景作念响应、能不可在Agent轨范化之争中卡位、有莫得树立基础底座承载多Agent的伙同等等。
模子依然是基本盘,但随着Harness的影响在扩大,每一家AI公司接下来要回答的都不再仅仅“我的模子有多强”,还要想了了我方在Harness搅拌的新AI口头里,要站在那里?
AI 时间日月牙异,Harness 也许仅仅一个开动。再过几年,它可能有新的名字,具体形态也可能会演化。但模子与场景之间,总要有一个贯串模子、镶嵌业务、千里淀响应的中间层。
这一层千里淀的除了工程才调,还有业务明白、响应数据,以及一家公司和确凿用户之间经常刻刻的相互校准。面前来看,这件事情莫得捷径,只可在饱和长的技术里千里淀,在饱和大的确凿业务中检修。

