AI化身數(shù)字打工人:PinchBench“龍蝦排行榜”揭曉誰最擅長干活
過去兩年,AI領域討論最多的話題很簡單:哪個模型更聰明。
誰的推理能力更強,誰的考試分數(shù)更高,誰又刷新了哪個榜單的紀錄。
但到了2026年,大家的關注點變了,不再執(zhí)著于模型的“聰明程度”,轉而關心一個更實際的問題:哪個模型更會干活?

隨著OpenClaw這類Agent框架的爆火,越來越多開發(fā)者不再滿足于和AI聊天,而是讓大模型真正接手各類任務。
寫代碼、查資料、處理郵件、整理文件、調(diào)用API,甚至能自己拆解復雜流程,一步步把事情完成。
在開發(fā)者圈子里,這件事有個很形象的說法:養(yǎng)龍蝦。
把模型接入Agent框架,就像往水箱里放一只龍蝦,讓它在里面自主運行任務、調(diào)用工具、調(diào)整工作流,看看它到底能不能把活干明白。

那么,到底哪款大模型最適合“養(yǎng)龍蝦”呢?
最近,OpenClaw創(chuàng)始人Peter Steinberger發(fā)布了一份名為PinchBench的基準測試榜單。

這份榜單一口氣實測了32個主流大模型,從成功率、速度和成本三個維度進行了全面對比。

它也成為了目前第一份專門針對Agent任務的“龍蝦大模型排行榜”。
榜單一公布,很多人的第一反應是:這個排名有點出乎意料。
從成功率來看,第一名并非大家常提及的“新模型”,而是Anthropic的旗艦模型Claude Opus 4.6。
它在PinchBench中的任務成功率達到了82.5%。

緊隨其后的是Claude Opus 4.5,成功率為81.3%;第三名是谷歌的Gemini 3.1 Pro Preview,成功率81.1%。
前三名的成功率都在80%以上,差距非常小。
更有意思的是后續(xù)排名:第四名是Claude Sonnet 4,成功率80.5%;第五名是國產(chǎn)模型Kimi K2.5,成功率80.1%;第六名是另一款國產(chǎn)模型MiniMax M2.1,成功率79.5%。
也就是說,在核心的成功率指標上,國產(chǎn)模型已穩(wěn)穩(wěn)進入第一梯隊。
不過有些模型的排名讓人意外,比如OpenAI的新模型GPT-5.4,成功率僅78%,排在第九位;不少開發(fā)者常用的GPT-4o,成功率甚至只有56.3%,處于榜單倒數(shù)位置。

這其實說明了一個關鍵問題:傳統(tǒng)的大模型排行榜,無法很好地預測AI在Agent任務中的表現(xiàn)。
過去的很多榜單本質是“考試模式”,比如知識問答、數(shù)學推理、代碼題,只要模型給出正確答案就算完成任務。
但在Agent系統(tǒng)中,AI要做的事情完全不同:它不僅要理解指令,還要自主拆解任務、調(diào)用工具、讀取文件、生成中間結果、執(zhí)行多步驟操作。

中間任何一步出錯,整個任務都可能失敗。
換句話說,Agent任務測試的不是模型“會不會答題”,而是它能否像數(shù)字員工一樣,一步步把事情做完。
從PinchBench的結果還能看出一個明顯趨勢:在Agent場景中,模型并非越大越好。
很多中型模型反而更穩(wěn)定,因為它們推理速度快、思考路徑短,在多步驟工作流中不容易“迷路”。
比如排名靠前的Claude Sonnet 4和MiniMax M2.1,都不是各家公司體量最大的模型版本,但在真實任務中表現(xiàn)很穩(wěn)定。
這意味著大模型正出現(xiàn)新的分工:旗艦模型負責展示極限能力,中型模型則承擔實際的生產(chǎn)任務。
當然,“養(yǎng)龍蝦”還繞不開一個核心問題——成本。

Agent系統(tǒng)比普通聊天更消耗Token,模型需要反復思考、生成中間步驟、調(diào)用工具,一次完整任務的Token消耗可能是普通對話的幾倍甚至十幾倍。

之前在OpenClaw開發(fā)者聚會上,有人分享過自己的使用賬單:每個月光Token費用就要1000到2000美元,還有更夸張的玩家每天消耗10億Token。

所以開發(fā)者圈里流行一句玩笑:安裝OpenClaw很便宜,養(yǎng)龍蝦卻很貴。
不過PinchBench榜單的最大價值,不只是排名本身。

它第一次比較系統(tǒng)地回答了Agent時代的現(xiàn)實問題:當AI真的開始“打工”時,我們該給它配哪種“大腦”?
更值得關注的是,這背后反映了AI行業(yè)的變化:以前評價AI像看考試成績,比分數(shù)、比榜單排名;現(xiàn)在則更看重實際能力——它到底能不能把活干完。
換句話說,AI不再只是會聊天、會寫文字的工具,而是越來越像能被安排任務的數(shù)字員工。
現(xiàn)在開發(fā)者見面寒暄,常說的不再是“你用哪個模型”,而是更接地氣的一句:
你現(xiàn)在養(yǎng)了幾只龍蝦?U0001f99e
本文來自微信公眾號“科技狐”(ID:kejihutv),作者:老狐,36氪經(jīng)授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



