欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

Benchmark：具身智能研究亟待補(bǔ)齊的關(guān)鍵基礎(chǔ)設(shè)施

03-21 06:51

要想富，先修路

這項(xiàng)競(jìng)賽的目標(biāo)并非展示機(jī)器人已具備的能力，而是盡可能精準(zhǔn)地界定它們暫時(shí)無(wú)法達(dá)成的邊界。

這恰恰是產(chǎn)業(yè)決策最需要的信息。因此，此次賽事或許不會(huì)帶來(lái)榜單上的狂歡，但必然能幫助研究人員認(rèn)清技術(shù)的真實(shí)狀況。模型競(jìng)賽只是見(jiàn)證技術(shù)飛速發(fā)展的一個(gè)方面，

若ManipArena能持續(xù)運(yùn)行，它記錄的將不只是排行榜，更可能成為具身智能邁向產(chǎn)業(yè)化的時(shí)間刻度。

具身智能模型存在結(jié)構(gòu)性矛盾：一邊是迭代迅速的模型，另一邊卻是滯后的基準(zhǔn)線。

也就是說(shuō)，具身模型始終缺乏科學(xué)、可靠的評(píng)測(cè)標(biāo)準(zhǔn)，難以從發(fā)散的“野蠻生長(zhǎng)”轉(zhuǎn)向有方向的“向上生長(zhǎng)”。

“木受繩則直”，具身模型同樣需要科學(xué)的Benchmark來(lái)精細(xì)評(píng)估、診斷，甚至指導(dǎo)未來(lái)研究方向。但現(xiàn)實(shí)是，由于長(zhǎng)期缺乏統(tǒng)一、高標(biāo)準(zhǔn)的真機(jī)測(cè)評(píng)體系，模型迭代與產(chǎn)業(yè)化進(jìn)程受到嚴(yán)重制約。

實(shí)際上，任何產(chǎn)業(yè)從技術(shù)探索走向規(guī)模化，都會(huì)經(jīng)歷從“百花齊放”到“標(biāo)準(zhǔn)收斂”的階段。

這是多個(gè)萬(wàn)億級(jí)市場(chǎng)規(guī)模產(chǎn)業(yè)驗(yàn)證過(guò)的成功路徑：互聯(lián)網(wǎng)時(shí)代，協(xié)議標(biāo)準(zhǔn)實(shí)現(xiàn)全球網(wǎng)絡(luò)互聯(lián)互通；深度學(xué)習(xí)的爆發(fā)也離不開(kāi)評(píng)測(cè)體系。它們不直接創(chuàng)造產(chǎn)品，卻決定著技術(shù)進(jìn)步的方向與速度。

具身智能正處于類似的早期階段。過(guò)去兩年，從VLA（視覺(jué)-語(yǔ)言-動(dòng)作）模型到世界模型，技術(shù)路徑層出不窮，研究范式高度分散。但行業(yè)不缺模型，也不缺演示視頻，缺的是能回答模型“在真實(shí)世界中究竟能達(dá)到何種水平”的統(tǒng)一標(biāo)尺。

沒(méi)有Benchmark，模型提升多停留在敘事層面；有了Benchmark，技術(shù)進(jìn)步才具備可驗(yàn)證、可復(fù)現(xiàn)、可積累的產(chǎn)業(yè)價(jià)值。

在此背景下，CVPR 2026官方競(jìng)賽ManipArena的啟動(dòng)，意義不僅是新增一場(chǎng)比賽，更在于它試圖補(bǔ)齊具身智能領(lǐng)域最關(guān)鍵卻長(zhǎng)期缺位的基礎(chǔ)設(shè)施——面向真實(shí)世界的統(tǒng)一評(píng)測(cè)體系。

更重要的是，可持續(xù)運(yùn)行的研發(fā)平臺(tái)能不斷沉淀數(shù)據(jù)、驗(yàn)證結(jié)論并反哺模型迭代，形成“評(píng)測(cè)-改進(jìn)-再評(píng)測(cè)”的正向循環(huán)，推動(dòng)整個(gè)領(lǐng)域從無(wú)序探索走向系統(tǒng)進(jìn)化。

ManipArena：不展示能力，而是測(cè)量模型邊界

表面看，ManipArena是機(jī)器人操作競(jìng)賽，但其設(shè)計(jì)邏輯更接近系統(tǒng)化能力測(cè)量。

長(zhǎng)期以來(lái)，機(jī)器人評(píng)測(cè)依賴仿真環(huán)境或精心布置、高度簡(jiǎn)化的桌面抓取任務(wù)。這類基準(zhǔn)雖推動(dòng)算法進(jìn)步，卻難以反映真實(shí)世界的復(fù)雜性。而真正能還原物理世界的長(zhǎng)時(shí)序決策、空間移動(dòng)、多模態(tài)感知、不可預(yù)測(cè)的物理交互，常被排除在評(píng)測(cè)之外。這導(dǎo)致研發(fā)人員只能盲目推進(jìn)，無(wú)法精準(zhǔn)迭代，模型可能在實(shí)驗(yàn)室表現(xiàn)出色，卻難以遷移到現(xiàn)實(shí)場(chǎng)景。

ManipArena的核心目標(biāo)正是填補(bǔ)這一鴻溝。賽事設(shè)置20個(gè)真實(shí)機(jī)器人任務(wù)，在統(tǒng)一環(huán)境下進(jìn)行真機(jī)評(píng)測(cè)，覆蓋推理能力、泛化能力、長(zhǎng)時(shí)序決策及多模態(tài)感知等關(guān)鍵維度。相比過(guò)往“簡(jiǎn)單抓取”測(cè)試，這更接近對(duì)完整操作能力的系統(tǒng)審視。

ManipArena賽事在科學(xué)設(shè)計(jì)上投入大量時(shí)間。其中重要設(shè)計(jì)是“一個(gè)模型完成全部任務(wù)”（One Model for All Tasks）：參賽者不能針對(duì)不同任務(wù)分別訓(xùn)練模型，必須依賴統(tǒng)一策略完成所有挑戰(zhàn)。這一規(guī)則本質(zhì)是篩選通用能力，而非單點(diǎn)技巧或任務(wù)過(guò)擬合。

另一關(guān)鍵設(shè)計(jì)是分層OOD（分布外）評(píng)估。每個(gè)任務(wù)通過(guò)物理屬性、空間布局和語(yǔ)義組合等多維變化，構(gòu)造不同難度等級(jí)，從域內(nèi)變化到語(yǔ)義外推，系統(tǒng)測(cè)試模型在未知情況下的表現(xiàn)。這使評(píng)測(cè)不再僅給出分?jǐn)?shù)，而是呈現(xiàn)能力曲線，揭示模型卡在感知、推理還是執(zhí)行環(huán)節(jié)。

此外，ManipArena將評(píng)測(cè)范圍從桌面操作擴(kuò)展到包含導(dǎo)航與全身控制的移動(dòng)任務(wù)，如整理衣物、掛畫(huà)、收納物品等，覆蓋更接近真實(shí)生活的操作場(chǎng)景。這意味著它不再評(píng)估“機(jī)械臂技能”，而是評(píng)估“具身系統(tǒng)能力”。

換句話說(shuō)，這項(xiàng)競(jìng)賽的目標(biāo)不是展示機(jī)器人已能做什么，而是盡可能準(zhǔn)確地界定它們暫時(shí)還做不到什么。

這正是產(chǎn)業(yè)決策最需要的信息。因此，此次賽事或許不會(huì)帶來(lái)榜單上的狂歡，但必然能幫助研究人員認(rèn)清技術(shù)的真實(shí)狀況。

從競(jìng)賽到研究基礎(chǔ)設(shè)施：具身智能拐點(diǎn)已至

ManipArena更深遠(yuǎn)的意義或許在于，它不只是一次競(jìng)賽，而是可持續(xù)運(yùn)行的研究平臺(tái)，具有“常態(tài)化評(píng)測(cè)”“持續(xù)性運(yùn)營(yíng)”“大幅降低門(mén)檻”等特色。

首先，它具備常態(tài)化評(píng)測(cè)能力。參賽者可基于公開(kāi)數(shù)據(jù)訓(xùn)練模型，通過(guò)遠(yuǎn)程接口提交算法，由平臺(tái)完成真機(jī)測(cè)試并返回結(jié)果。這種機(jī)制不僅適用于比賽，也適用于日常研究驗(yàn)證，使其成為持續(xù)可用的Benchmark，而非一次性活動(dòng)。

其次，平臺(tái)提供高質(zhì)量真實(shí)世界數(shù)據(jù)與精細(xì)評(píng)測(cè)體系，包括188小時(shí)高質(zhì)量真機(jī)數(shù)據(jù)，并承諾未來(lái)持續(xù)開(kāi)源數(shù)據(jù)，為模型訓(xùn)練與分析提供直接支撐。在機(jī)器人領(lǐng)域，獲取真實(shí)數(shù)據(jù)成本極高，這種集中供給本身就是重要的科研基礎(chǔ)設(shè)施。

更關(guān)鍵的是，它顯著降低參與門(mén)檻。研究團(tuán)隊(duì)無(wú)需購(gòu)買昂貴機(jī)器人設(shè)備，僅依托一臺(tái)GPU服務(wù)器即可參與全流程評(píng)測(cè)。

這是關(guān)鍵轉(zhuǎn)折點(diǎn)：具身智能研究長(zhǎng)期受制于硬件成本，只有少數(shù)實(shí)驗(yàn)室擁有設(shè)備優(yōu)勢(shì)，多數(shù)團(tuán)隊(duì)難以開(kāi)展真實(shí)世界實(shí)驗(yàn)。遠(yuǎn)程真機(jī)評(píng)測(cè)機(jī)制讓更多研究者能參與競(jìng)爭(zhēng)，擴(kuò)大創(chuàng)新來(lái)源。

額外說(shuō)明的是，這種統(tǒng)一硬件的方式避免了硬件差異對(duì)結(jié)果的影響。而且，由于自變量的“量子一號(hào)”等硬件設(shè)施是AI原生、為模型而生，能更好發(fā)揮模型性能。若ManipArena能持續(xù)發(fā)展，也將有助于形成統(tǒng)一的硬件標(biāo)準(zhǔn)。

當(dāng)性能差異主要由算法而非設(shè)備決定時(shí)，研究重點(diǎn)將更聚焦模型，加速軟件層面的競(jìng)爭(zhēng)與收斂。

“要想富，先修路”，如今具身智能研究要從粗放的野蠻生長(zhǎng)走向規(guī)范化發(fā)展，正缺少這樣穩(wěn)定、科學(xué)的基礎(chǔ)設(shè)施建設(shè)。

自變量成為行業(yè)變量

外界可能會(huì)問(wèn)，為何是一家模型企業(yè)推動(dòng)這項(xiàng)工作？答案恰在于，只有真正開(kāi)發(fā)過(guò)模型的人，才最清楚模型的能力邊界與潛在漏洞。

首先要認(rèn)識(shí)到，Benchmark從來(lái)不是中性的，它隱含對(duì)未來(lái)技術(shù)方向的假設(shè)：

- 例如，ManipArena將推理、長(zhǎng)時(shí)序決策和多模態(tài)融合置于核心位置，實(shí)際是對(duì)具身智能主流發(fā)展路徑的判斷，是對(duì)過(guò)去簡(jiǎn)單任務(wù)評(píng)測(cè)的技術(shù)矯正；
- 又如，賽事開(kāi)源的多維數(shù)據(jù)特意強(qiáng)調(diào)電機(jī)電流和關(guān)節(jié)速度，官方稱“電機(jī)電流和關(guān)節(jié)速度可作為力和接觸的代理信號(hào)，當(dāng)前主流模型（VLA、World Model）均未有效利用這些信號(hào)”，ManipArena針對(duì)性開(kāi)源將有助于推動(dòng)力敏感策略研究；

- 此外，官方多次強(qiáng)調(diào)VLA與世界模型同臺(tái)競(jìng)技，看兩者是否各有千秋、孰優(yōu)孰劣，這在一定程度上也昭示了技術(shù)趨勢(shì)。

其次，做過(guò)模型的人更了解模型如何“取巧”。在許多基準(zhǔn)測(cè)試中，模型可通過(guò)統(tǒng)計(jì)偏差、環(huán)境規(guī)律或特定技巧獲得高分，卻不具備真正的通用能力。ManipArena的設(shè)計(jì)明顯試圖規(guī)避這些問(wèn)題，如統(tǒng)一環(huán)境、均勻分布變化、跨任務(wù)通用模型要求等，都旨在防止過(guò)擬合和投機(jī)行為。

再次，真正科學(xué)有效的Benchmark設(shè)計(jì)往往來(lái)自大量經(jīng)驗(yàn)積累。只有從零到一全鏈路自研、踩過(guò)足夠多坑的團(tuán)隊(duì)，才知道模型會(huì)在哪里崩潰。從這個(gè)角度看，“做題多的人更會(huì)出題”并非調(diào)侃，而是技術(shù)現(xiàn)實(shí)。評(píng)測(cè)體系本質(zhì)上是對(duì)過(guò)去研究經(jīng)驗(yàn)的結(jié)構(gòu)化沉淀，也是對(duì)未來(lái)技術(shù)路徑的引導(dǎo)。

作為長(zhǎng)期堅(jiān)持端到端具身大模型路線的企業(yè)，自變量深度參與了從VLA到世界模型融合范式的演進(jìn)，對(duì)模型在真實(shí)物理世界中的能力邊界與失效模式有一手認(rèn)知。

其自研的WALL-A模型首創(chuàng)將VLA與世界模型深度融合，在統(tǒng)一多模態(tài)輸入輸出架構(gòu)下引入具身多模態(tài)思維鏈，通過(guò)時(shí)空狀態(tài)預(yù)測(cè)、視覺(jué)因果推理與可學(xué)習(xí)記憶機(jī)制，使機(jī)器人在非結(jié)構(gòu)化環(huán)境中實(shí)現(xiàn)更強(qiáng)的零樣本泛化能力。同時(shí)，依托大規(guī)模真機(jī)強(qiáng)化學(xué)習(xí)，模型在持續(xù)與物理世界交互中積累高質(zhì)量經(jīng)驗(yàn)，自主修復(fù)長(zhǎng)尾問(wèn)題，形成“基礎(chǔ)模型—真實(shí)交互—能力進(jìn)化”的技術(shù)閉環(huán)。在此基礎(chǔ)上開(kāi)源的WALL-OSS也表現(xiàn)出優(yōu)異的長(zhǎng)程操作能力、因果推理與空間理解能力。

正是這種從模型架構(gòu)、訓(xùn)練方法到真實(shí)部署的全鏈路實(shí)踐，讓自變量不僅熟悉模型訓(xùn)練的難點(diǎn)、與模型技術(shù)發(fā)展同步，也成為具身智能能力評(píng)測(cè)體系的積極塑造者。對(duì)于技術(shù)革命而言，福澤社會(huì)從不取決于哪家企業(yè)的技術(shù)強(qiáng)弱，而是從行業(yè)沉淀出可靠標(biāo)尺開(kāi)始。在具身智能領(lǐng)域，亦是如此。

模型競(jìng)賽只是見(jiàn)證技術(shù)迅猛發(fā)展的一個(gè)方面，若ManipArena能持續(xù)運(yùn)行，它記錄的將不只是排行榜，更可能成為具身智能邁向產(chǎn)業(yè)化的時(shí)間刻度。

本文來(lái)自微信公眾號(hào)“具身研習(xí)社”，作者：彭堃方，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

泄漏報(bào)告揭示硅碳電池瓶頸容量增長(zhǎng)或遇壽命代價(jià)

市值突破495億港元，湖北孝感首富肖紅星夫婦攜廣合科技再登港交所

告別高價(jià)研學(xué)，中產(chǎn)家長(zhǎng)帶娃走進(jìn)工廠流水線——低成本遛娃新選擇

配角AI化引熱議：平臺(tái)態(tài)度成影視公司決策關(guān)鍵

AI洗牌短劇江湖：技術(shù)與內(nèi)容的博弈

項(xiàng)目推薦

迪瓜租機(jī)

康老板 · 氧療堂