Harness成AI编程关键,提升成功率远超模型升级
别再纠结换什么新模型了。最近圈子里都在聊一个叫Harness的东西,甚至连DeepSeek都开始紧急招聘这方面的工程师。这玩意儿不是什么高深的魔法,说到底就是一套帮AI编程智能体“穿上缰绳”的工程文件。
以前我们总以为是模型不行,写代码才老是失败。但Anthropic和OpenAI在2026年拿出的内部实验数据,确实有点打脸。我用几个信号来解释这事有多反常识。
第一个信号,是成本与效果的倒挂。 Anthropic拿Opus 4.5做测试,裸跑模型解编程题,只花了9美元,成功率惨到只有20%。代码别说跑通了,编译都过不去。后来他们套上了Harness,同款模型成本飙升到200美元,但成功率直接拉满到100%。多花的191美元,全用来让AI自我验证、循环修改了。OpenAI那边的Codex团队也在百万行真实仓库里重演了这一幕:只在根目录加了个不到100行的AGENTS.md文件,成功率就从29%跳到了60%。
第二个信号,是治好了AI的三个绝症。 AI编程有三条命门。第一是“过早宣布胜利”,代码写完不看报错就说搞定了,这是裸跑失败的根源。第二是“上下文焦虑”,任务太长,AI怕内存不够就开始偷工减料,砍测试、写假接口。第三是“跨会话失忆”,换了个聊天窗口,AI就把前面写的模块忘得一干二净,重写一遍还接口冲突。Harness就是针对这三点的解药:通过写死验证命令,让AI必须跑通测试才算完;通过维护进度文件,让AI断点续传不怕忘。
第三个信号,是行业风向转了。 过去一年所有人都在追更强的模型,觉得下一个版本来了一切都会好。现在头部公司的共识是:模型能力决定天花板,但Harness决定了你到底能摸到天花板的几成。没有这套缰绳,即使是最顶尖的模型,交出来的代码也未必能直接用。现在硅谷那边甚至出现了专门的组织架构调整,把Harness当成了核心生产力。
搞一个Harness其实不复杂,200行配置以内就能搞定。在项目里建个AGENTS.md写清规则,锁死依赖环境,再配上进度和反馈文件。关键是强制AI在宣布“完成”前,必须去跑一遍类型检查、测试和构建。退出码不为零,这事儿就不算完。这就像给狂奔的野马配上了最基础的方向盘和刹车,比单纯指望一匹更野的马来拉车要靠谱得多。
