欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<tt id="5z3lv"></tt>

<var id="5z3lv"></var>

<option id="5z3lv"><sup id="5z3lv"></sup></option>

Harness Engineering：為AI Agent打造高效“鞍具”

03-03 06:39

本文來自微信公眾號：陸三金，作者：陸三金，原文標(biāo)題：《Harness Engineering：給Agent一副好馬鞍》

最近，你或許留意到了“Harness Engineering”這個詞。

你的第一反應(yīng)可能是疑惑：這是什么？

Prompt Engineering還在學(xué)習(xí)中，Context Engineering尚未完全搞懂，怎么又冒出個Harness Engineering。

而且這個詞該如何翻譯呢？

Harness的原意是馬具，這看起來和AI似乎沒什么關(guān)聯(lián)。

先別著急，我給你看一張圖，你就能明白。

也就是說，你為模型構(gòu)建的工具、文件、提示詞、鉤子、記憶系統(tǒng)等一系列元素，組合在一起就被稱為Harness。

模型原本像一匹野馬，有了這一套Harness，它就能聽從你的指令行事。

先來講一個令人意外的實驗結(jié)果。2026年2月，LangChain團(tuán)隊對自家的coding agent進(jìn)行了測試。他們使用同一個模型GPT-5.2-Codex，僅僅修改了外圍的“套具”（harness），Terminal Bench 2.0的分?jǐn)?shù)就從52.8大幅提升到66.5，排名也從Top 30直接躍入Top 5。

沒錯，馬還是那匹馬，換了個馬鞍，速度就完全不同了。

這就是Harness Engineering正在展現(xiàn)的力量。

如果把AI agent比作一匹烈馬，那么過去幾年的技術(shù)發(fā)展，讓騎手們逐漸明白一個道理：馴馬術(shù)有其極限，而馬鞍工藝才是決定能跑多遠(yuǎn)的關(guān)鍵。

2020年至2023年，是Prompt Engineering的黃金時期。所有人都在研究如何撰寫提示詞——用什么樣的措辭、格式和示例，能讓GPT-3或GPT-4給出更優(yōu)的回答。那時，prompt幾乎就是AI應(yīng)用的全部工程工作。

但到了2024年，情況發(fā)生了變化。模型變得越來越強大，應(yīng)用場景也從單次問答轉(zhuǎn)向多輪對話和長時間任務(wù)。Anthropic的研究團(tuán)隊提出了一個新概念：Context Engineering（上下文工程）。他們認(rèn)為，隨著模型能力的提升，構(gòu)建AI應(yīng)用的核心問題已從“如何寫提示詞”轉(zhuǎn)變?yōu)椤笆裁礃拥呐渲米羁赡墚a(chǎn)生期望的行為”。

Context指的是模型采樣時獲取的所有token，包括系統(tǒng)提示、工具定義、外部數(shù)據(jù)、消息歷史等。Context Engineering就是在這個不斷擴(kuò)展的信息世界中，篩選出最小但信號最強的那部分token。

而Harness Engineering則是Context Engineering的自然延伸。它不僅關(guān)注“給模型看什么”，更關(guān)注“如何讓模型在查看過程中保持專注、自我糾正并持續(xù)前進(jìn)”。OpenAI、Anthropic、LangChain等幾乎所有頭部企業(yè)都在2025年至2026年間加大了對harness的投入。

這就像馬術(shù)史上的一個轉(zhuǎn)折點：人們發(fā)現(xiàn)，與其不斷訓(xùn)練馬匹的極限速度，不如設(shè)計更好的馬鞍、韁繩和馬蹄鐵，讓馬跑得既快又穩(wěn)。

說實話，這時我很想聽李宏毅講一堂Harness Engineering課程，他的課程里常有一句經(jīng)典話術(shù)：“本課程中，沒有模型被訓(xùn)練”，讓人很有安全感。我們不改動模型，但能讓模型更聽我們的話。

那么，一副好的“harness”到底包含什么呢？

首先是Context Engineering的基礎(chǔ)設(shè)施。Manus團(tuán)隊在其經(jīng)典博客《AI代理的上下文工程：構(gòu)建Manus的經(jīng)驗教訓(xùn)》中分享了一個關(guān)鍵發(fā)現(xiàn)：現(xiàn)代AI agent的輸入輸出token比例可達(dá)100:1。也就是說，模型每輸出一個token，可能要處理100個輸入token。這使得KV緩存（Key-Value Cache）變得至關(guān)重要——使用緩存后，Claude Sonnet的輸入成本可從3美元/百萬token降至0.3美元，相差整整10倍。

為了最大化緩存命中率，Manus團(tuán)隊總結(jié)了三條鐵律：保持提示前綴穩(wěn)定、讓上下文只追加不修改、在關(guān)鍵位置明確標(biāo)記緩存斷點。這些看似瑣碎的工程細(xì)節(jié)，決定了代理運行的成本和速度。

其次是Progressive Disclosure（漸進(jìn)式披露）。這個概念最早源于1990年代Nielsen Norman Group的可用性研究——不要一次性向用戶展示所有信息，而是按需逐步呈現(xiàn)。三十年后，這一原則在AI代理中找到了新的應(yīng)用。

Anthropic的Claude Code提供了一個經(jīng)典案例。它的Skills功能采用三層架構(gòu)：

?第一層僅加載技能的名稱和描述（元數(shù)據(jù)）
?第二層在匹配到用戶需求時才加載完整技能內(nèi)容
?第三層則在執(zhí)行過程中按需引用支持文件。這種方式讓代理可以擁有數(shù)十個技能，但只為實際使用的那些付費。

這就像去圖書館查資料。笨方法是把整個圖書館搬到桌子上再翻找；聰明的方法是先看書目索引，找到可能相關(guān)的書，再一本本取閱。代理也需要這樣的“索引系統(tǒng)”。

第三是Self-Verification（自我驗證）。LangChain團(tuán)隊發(fā)現(xiàn)，模型最常見的失敗模式是：寫完代碼后，自己看一遍覺得“不錯”就停止了，沒有測試、驗證，也沒有對照需求文檔檢查。

他們的解決方案是在harness中強制加入驗證循環(huán)：Plan（規(guī)劃）→Build（構(gòu)建）→Verify（驗證）→Fix（修復(fù)）。更巧妙的是，他們在模型準(zhǔn)備退出時插入一個PreCompletionChecklistMiddleware，強制提醒代理“先別急著結(jié)束，跑一遍測試看看”。這個簡單的鉤子，大幅減少了“自以為完成了”的幻覺。

最后是長時間運行的支撐架構(gòu)。當(dāng)代理需要工作數(shù)小時甚至數(shù)天時，單個上下文窗口顯然不夠。Anthropic的解決方案是雙代理架構(gòu)：Initializer Agent負(fù)責(zé)搭建環(huán)境，包括創(chuàng)建feature list、編寫init.sh腳本、進(jìn)行第一次git提交；Coding Agent則負(fù)責(zé)在每個會話中做增量推進(jìn)，留下清晰的進(jìn)度記錄和git commit。

feature list的設(shè)計尤為巧妙。Initializer Agent會把用戶需求拆解成200多個具體功能點，全部標(biāo)記為“未完成”。每個Coding Agent會話開始時，都會讀取這個列表，選擇優(yōu)先級最高的未完成項來工作。這避免了代理“一次性想做完所有事”或“看了眼代碼覺得差不多就宣布勝利”這兩種常見的失敗模式。

Harness Engineering的興起，標(biāo)志著AI工程正進(jìn)入一個新階段。

過去，人們把模型當(dāng)作黑盒魔法，認(rèn)為只要模型足夠強大，所有問題都能迎刃而解。但現(xiàn)在，行業(yè)逐漸認(rèn)識到一個事實：模型的原生智能是“尖刺狀的”（spiky）——在某些任務(wù)上表現(xiàn)出色，在另一些任務(wù)上卻會莫名其妙地失敗。Harness Engineering的目標(biāo)，就是打磨這些尖刺，讓模型的能力更平滑、更可控、更可靠。

這有點像攝影術(shù)的歷史。19世紀(jì)的攝影師癡迷于鏡頭工藝，追求更清晰的玻璃和更精準(zhǔn)的焦距。但到了20世紀(jì)，真正改變攝影的是哈蘇的模塊化設(shè)計、寶麗來的即拍即得以及數(shù)碼相機的傳感器優(yōu)化。相機還是那個相機，但“如何使用它”的工程學(xué)讓它走進(jìn)了千家萬戶。

AI代理正在經(jīng)歷類似的轉(zhuǎn)變。當(dāng)GPT-5、Claude 4、Gemini 3這些基礎(chǔ)模型趨于成熟時，競爭的焦點正從“誰的模型更強”轉(zhuǎn)向“誰的harness更精巧”。

那么，Harness Engineering會走向何方呢？

我認(rèn)為有幾種可能性。

一種可能是標(biāo)準(zhǔn)化。就像Docker容器統(tǒng)一了應(yīng)用部署一樣，未來或許會出現(xiàn)Harness的標(biāo)準(zhǔn)格式，定義如何組織系統(tǒng)提示、管理工具、實現(xiàn)驗證循環(huán)以及跨會話保持狀態(tài)。不同團(tuán)隊開發(fā)的代理可以共享harness組件，形成一個生態(tài)。

另一種可能是模型化。既然harness的設(shè)計如此依賴具體任務(wù)和模型特性，為什么不讓AI自己來優(yōu)化harness呢？我們可以想象一個元學(xué)習(xí)循環(huán)：代理執(zhí)行任務(wù)，產(chǎn)生軌跡，另一個“harness優(yōu)化代理”分析這些軌跡，提出harness改進(jìn)建議，甚至自動生成新的中間件。這有點像編譯器優(yōu)化——人類編寫代碼，編譯器決定如何翻譯成機器指令。

還有一種可能是領(lǐng)域分化。代碼生成、科學(xué)研究、金融建模、創(chuàng)意設(shè)計等不同領(lǐng)域的harness可能會走向完全不同的方向。寫代碼需要嚴(yán)格的驗證循環(huán)和測試覆蓋，做科研需要文獻(xiàn)檢索和假設(shè)追蹤，搞金融需要風(fēng)險評估和合規(guī)檢查。沒有一套harness能適用于所有場景。

回到開頭的比喻。

好馬需要好鞍。這不是對馬的束縛，而是讓它跑得更遠(yuǎn)的工具。Harness Engineering的本質(zhì)，是承認(rèn)AI不是黑盒魔法，而是需要被理解、引導(dǎo)和約束的智能體。

當(dāng)AI代理從幾分鐘的對話轉(zhuǎn)向幾小時甚至幾天的自主工作時，harness的質(zhì)量將決定一切。它決定了代理會不會在半路迷失方向，會不會自以為完成了任務(wù)，會不會在跨會話時忘記之前做過什么。

LangChain的實驗證明：同樣的模型，換一副“鞍具”，就能從Top 30沖進(jìn)Top 5。

這個差距，就是Harness Engineering的價值所在。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

舊梗重啟東南亞，非游戲App月入超百萬？

新研究揭示：常吃米飯或助體重穩(wěn)定？日本中年人控重飲食法，普通人也能輕松學(xué)

a16z領(lǐng)投200萬美元，Coverstar瞄準(zhǔn)北美Alpha世代打造安全社交新體驗

布氏鯨遭漁船撞傷引爭議，生態(tài)旅游如何平衡保護(hù)與發(fā)展？

奧樂齊落子鎮(zhèn)江兩家門店籌備就緒將開業(yè)

項目推薦

康小虎 · 健康小屋

康老板 · 氧療堂