欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

Harness Engineering:為AI Agent打造高效“鞍具”

6分鐘前

本文來自微信公眾號:陸三金,作者:陸三金,原文標題:《Harness Engineering:給Agent一副好馬鞍》



最近,你或許留意到了“Harness Engineering”這個詞。



你的第一反應可能是疑惑:這是什么?



Prompt Engineering還在學習中,Context Engineering尚未完全搞懂,怎么又冒出個Harness Engineering。



而且這個詞該如何翻譯呢?



Harness的原意是馬具,這看起來和AI似乎沒什么關聯(lián)。



先別著急,我給你看一張圖,你就能明白。




也就是說,你為模型構建的工具、文件、提示詞、鉤子、記憶系統(tǒng)等一系列元素,組合在一起就被稱為Harness。



模型原本像一匹野馬,有了這一套Harness,它就能聽從你的指令行事。



先來講一個令人意外的實驗結果。2026年2月,LangChain團隊對自家的coding agent進行了測試。他們使用同一個模型GPT-5.2-Codex,僅僅修改了外圍的“套具”(harness),Terminal Bench 2.0的分數(shù)就從52.8大幅提升到66.5,排名也從Top 30直接躍入Top 5。




沒錯,馬還是那匹馬,換了個馬鞍,速度就完全不同了。



這就是Harness Engineering正在展現(xiàn)的力量。



如果把AI agent比作一匹烈馬,那么過去幾年的技術發(fā)展,讓騎手們逐漸明白一個道理:馴馬術有其極限,而馬鞍工藝才是決定能跑多遠的關鍵。



2020年至2023年,是Prompt Engineering的黃金時期。所有人都在研究如何撰寫提示詞——用什么樣的措辭、格式和示例,能讓GPT-3或GPT-4給出更優(yōu)的回答。那時,prompt幾乎就是AI應用的全部工程工作。



但到了2024年,情況發(fā)生了變化。模型變得越來越強大,應用場景也從單次問答轉向多輪對話和長時間任務。Anthropic的研究團隊提出了一個新概念:Context Engineering(上下文工程)。他們認為,隨著模型能力的提升,構建AI應用的核心問題已從“如何寫提示詞”轉變?yōu)椤笆裁礃拥呐渲米羁赡墚a(chǎn)生期望的行為”。



Context指的是模型采樣時獲取的所有token,包括系統(tǒng)提示、工具定義、外部數(shù)據(jù)、消息歷史等。Context Engineering就是在這個不斷擴展的信息世界中,篩選出最小但信號最強的那部分token。



而Harness Engineering則是Context Engineering的自然延伸。它不僅關注“給模型看什么”,更關注“如何讓模型在查看過程中保持專注、自我糾正并持續(xù)前進”。OpenAI、Anthropic、LangChain等幾乎所有頭部企業(yè)都在2025年至2026年間加大了對harness的投入。



這就像馬術史上的一個轉折點:人們發(fā)現(xiàn),與其不斷訓練馬匹的極限速度,不如設計更好的馬鞍、韁繩和馬蹄鐵,讓馬跑得既快又穩(wěn)。



說實話,這時我很想聽李宏毅講一堂Harness Engineering課程,他的課程里常有一句經(jīng)典話術:“本課程中,沒有模型被訓練”,讓人很有安全感。我們不改動模型,但能讓模型更聽我們的話。



那么,一副好的“harness”到底包含什么呢?



首先是Context Engineering的基礎設施。Manus團隊在其經(jīng)典博客《AI代理的上下文工程:構建Manus的經(jīng)驗教訓》中分享了一個關鍵發(fā)現(xiàn):現(xiàn)代AI agent的輸入輸出token比例可達100:1。也就是說,模型每輸出一個token,可能要處理100個輸入token。這使得KV緩存(Key-Value Cache)變得至關重要——使用緩存后,Claude Sonnet的輸入成本可從3美元/百萬token降至0.3美元,相差整整10倍。





為了最大化緩存命中率,Manus團隊總結了三條鐵律:保持提示前綴穩(wěn)定、讓上下文只追加不修改、在關鍵位置明確標記緩存斷點。這些看似瑣碎的工程細節(jié),決定了代理運行的成本和速度。



其次是Progressive Disclosure(漸進式披露)。這個概念最早源于1990年代Nielsen Norman Group的可用性研究——不要一次性向用戶展示所有信息,而是按需逐步呈現(xiàn)。三十年后,這一原則在AI代理中找到了新的應用。



Anthropic的Claude Code提供了一個經(jīng)典案例。它的Skills功能采用三層架構:



  • ?第一層僅加載技能的名稱和描述(元數(shù)據(jù))



  • ?第二層在匹配到用戶需求時才加載完整技能內容



  • ?第三層則在執(zhí)行過程中按需引用支持文件。這種方式讓代理可以擁有數(shù)十個技能,但只為實際使用的那些付費。




這就像去圖書館查資料。笨方法是把整個圖書館搬到桌子上再翻找;聰明的方法是先看書目索引,找到可能相關的書,再一本本取閱。代理也需要這樣的“索引系統(tǒng)”。



第三是Self-Verification(自我驗證)。LangChain團隊發(fā)現(xiàn),模型最常見的失敗模式是:寫完代碼后,自己看一遍覺得“不錯”就停止了,沒有測試、驗證,也沒有對照需求文檔檢查。



他們的解決方案是在harness中強制加入驗證循環(huán):Plan(規(guī)劃)→Build(構建)→Verify(驗證)→Fix(修復)。更巧妙的是,他們在模型準備退出時插入一個PreCompletionChecklistMiddleware,強制提醒代理“先別急著結束,跑一遍測試看看”。這個簡單的鉤子,大幅減少了“自以為完成了”的幻覺。





最后是長時間運行的支撐架構。當代理需要工作數(shù)小時甚至數(shù)天時,單個上下文窗口顯然不夠。Anthropic的解決方案是雙代理架構:Initializer Agent負責搭建環(huán)境,包括創(chuàng)建feature list、編寫init.sh腳本、進行第一次git提交;Coding Agent則負責在每個會話中做增量推進,留下清晰的進度記錄和git commit。




feature list的設計尤為巧妙。Initializer Agent會把用戶需求拆解成200多個具體功能點,全部標記為“未完成”。每個Coding Agent會話開始時,都會讀取這個列表,選擇優(yōu)先級最高的未完成項來工作。這避免了代理“一次性想做完所有事”或“看了眼代碼覺得差不多就宣布勝利”這兩種常見的失敗模式。



Harness Engineering的興起,標志著AI工程正進入一個新階段。



過去,人們把模型當作黑盒魔法,認為只要模型足夠強大,所有問題都能迎刃而解。但現(xiàn)在,行業(yè)逐漸認識到一個事實:模型的原生智能是“尖刺狀的”(spiky)——在某些任務上表現(xiàn)出色,在另一些任務上卻會莫名其妙地失敗。Harness Engineering的目標,就是打磨這些尖刺,讓模型的能力更平滑、更可控、更可靠。



這有點像攝影術的歷史。19世紀的攝影師癡迷于鏡頭工藝,追求更清晰的玻璃和更精準的焦距。但到了20世紀,真正改變攝影的是哈蘇的模塊化設計、寶麗來的即拍即得以及數(shù)碼相機的傳感器優(yōu)化。相機還是那個相機,但“如何使用它”的工程學讓它走進了千家萬戶。



AI代理正在經(jīng)歷類似的轉變。當GPT-5、Claude 4、Gemini 3這些基礎模型趨于成熟時,競爭的焦點正從“誰的模型更強”轉向“誰的harness更精巧”。



那么,Harness Engineering會走向何方呢?



我認為有幾種可能性。



一種可能是標準化。就像Docker容器統(tǒng)一了應用部署一樣,未來或許會出現(xiàn)Harness的標準格式,定義如何組織系統(tǒng)提示、管理工具、實現(xiàn)驗證循環(huán)以及跨會話保持狀態(tài)。不同團隊開發(fā)的代理可以共享harness組件,形成一個生態(tài)。



另一種可能是模型化。既然harness的設計如此依賴具體任務和模型特性,為什么不讓AI自己來優(yōu)化harness呢?我們可以想象一個元學習循環(huán):代理執(zhí)行任務,產(chǎn)生軌跡,另一個“harness優(yōu)化代理”分析這些軌跡,提出harness改進建議,甚至自動生成新的中間件。這有點像編譯器優(yōu)化——人類編寫代碼,編譯器決定如何翻譯成機器指令。



還有一種可能是領域分化。代碼生成、科學研究、金融建模、創(chuàng)意設計等不同領域的harness可能會走向完全不同的方向。寫代碼需要嚴格的驗證循環(huán)和測試覆蓋,做科研需要文獻檢索和假設追蹤,搞金融需要風險評估和合規(guī)檢查。沒有一套harness能適用于所有場景。



回到開頭的比喻。



好馬需要好鞍。這不是對馬的束縛,而是讓它跑得更遠的工具。Harness Engineering的本質,是承認AI不是黑盒魔法,而是需要被理解、引導和約束的智能體。



當AI代理從幾分鐘的對話轉向幾小時甚至幾天的自主工作時,harness的質量將決定一切。它決定了代理會不會在半路迷失方向,會不會自以為完成了任務,會不會在跨會話時忘記之前做過什么。



LangChain的實驗證明:同樣的模型,換一副“鞍具”,就能從Top 30沖進Top 5。



這個差距,就是Harness Engineering的價值所在。


本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。

免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com