GTC2026揭示機器人技術新趨勢:減少顯式中間層,提升響應效率
本文來自微信公眾號:42號電波,作者:蘭博,編輯:James
在GTC2026大會上,黃仁勛展示了迪士尼經典IP雪寶機器人的現場互動,其背后是英偉達面向機器人領域的全套技術更新,包括新版Isaac Platform、多模態(tài)基礎模型以及強化仿真與現實耦合的訓練框架。這些技術延續(xù)了英偉達的積累,且呈現出工程化新變化:機器人系統(tǒng)正減少對“顯式中間層”的依賴,讓感知直接參與動作生成,以提升響應速度。
傳統(tǒng)VLA模型中,機器人接收感知信息后,需通過顯式語言理解任務并拆解為動作序列,語言在此充當中間層。而新路徑則弱化這類“顯式表征”,讓視覺輸入、環(huán)境狀態(tài)與任務條件直接進入策略模型,模型在隱空間推理后輸出連續(xù)控制信號。類似變化也出現在世界模型領域,清華大學交叉信息研究院與Galaxea AI的論文《Fast-WAM:Do World Action Models Need Test-time Future Imagination?》針對“未來想象”這一中間結構提出疑問,探討推理階段中間步驟的必要性。
無論是VLA還是世界模型,傳統(tǒng)“顯式中間層”易導致延遲過高,影響機器人在真實場景的落地。兩者指向同一底層變革:機器人系統(tǒng)正從分層顯式推理結構,轉向統(tǒng)一表示空間中的直接決策。

顯式中間層成機器人“負擔”
受大語言模型架構啟發(fā),近一兩年的傳統(tǒng)VLA模型多采用分層架構,流程為語言理解、語義解析、任務分解、規(guī)劃及控制執(zhí)行。該結構模塊清晰、可解釋性強,但實際部署中問題漸顯:
表示形式不一致:語言模型處理離散符號,規(guī)劃模塊操作結構化任務,控制系統(tǒng)依賴連續(xù)時間信號,跨層轉換易積累誤差。
時間尺度不匹配:高層決策低頻,控制執(zhí)行需高頻閉環(huán)響應,分層易引發(fā)延遲與不一致。
世界模型(WAM)也存在類似問題,其通過生成未來視頻或狀態(tài)序列輔助決策,本質是“先想象,再行動”,將決策顯式展開為“預測、評估、選擇”,增加了計算與接口成本。

機器人需更快速響應
GTC期間英偉達展示的技術更新,體現了從傳統(tǒng)流水線向緊湊結構的演進,即從狀態(tài)直接到神經策略再到機器人連續(xù)動作。VLA模型中,語言位置發(fā)生變化:逐漸退出實時控制回路,更多作為訓練階段的監(jiān)督信號或高層約束,而非每步動作決策的輸入;策略模型直接輸出關節(jié)角速度或末端位姿等控制量,而非中間語義指令,內部完成多模塊決策過程。
這種“收斂”也出現在WAM領域,Fast-WAM研究有所體現。傳統(tǒng)WAM包含訓練階段學習視頻或狀態(tài)動態(tài)表示、推理階段生成未來軌跡再選動作兩部分;Fast-WAM則拆分驗證,采用簡化結構:保留訓練階段視頻建模,推理階段移除未來生成過程,直接從當前觀測輸出動作。實驗表明,去掉推理時未來想象對性能影響小,去掉視頻訓練則性能顯著下降,且Fast-WAM推理延遲降至約190毫秒,較需未來想象的方案提速約4倍。

中間層正在內化
結合GTC系統(tǒng)變化與Fast-WAM研究,可見機器人系統(tǒng)減少顯式中間層、將其“內化”為模型隱式表示的趨勢。語言和未來想象均為中間層,前者將復雜決策轉化為可解釋語義步驟,后者將決策展開為可預測軌跡。當前變化表現為:不再顯式生成語言指令、不再顯式預測未來軌跡,而是在統(tǒng)一表示空間直接完成決策。模型不再“先做人類可解釋的推理”再執(zhí)行動作,更接近控制系統(tǒng)“輸入狀態(tài)、輸出動作”的自然形式,中間過程無需顯式展開。
趨勢背后的基礎條件
“減少中間層”趨勢并非單一模型設計結果,而是近一年多基礎條件成熟的體現:
一是仿真與數據生成能力提升?;贜VIDIA Isaac Sim的大規(guī)模仿真,機器人可在虛擬環(huán)境生成穩(wěn)定可控、帶反饋的交互數據(含成功與失敗標簽),使策略模型不再完全依賴昂貴真實數據,實現從狀態(tài)到動作的直接訓練。Fast-WAM也依賴視頻級行為數據訓練,性能源于訓練階段學到的動態(tài)表示,而非推理階段額外生成過程。
二是算力與模型結構進步。端到端策略或隱式決策模型需在統(tǒng)一表示空間同時處理感知與控制,對計算資源和模型穩(wěn)定性要求高。AI發(fā)展帶來的GPU與邊緣計算平臺性能提升,使這類模型能在實際系統(tǒng)運行;時序Transformer、擴散策略等結構引入控制問題,讓模型在不顯式展開中間步驟時學習穩(wěn)定動作分布。
三是數據閉環(huán)方式改變。策略模型更多依賴交互數據(軌跡、獎勵信號、環(huán)境反饋),通過“執(zhí)行、反饋、再訓練”循環(huán)優(yōu)化,而非依賴人類提供結構化中間表示,進一步削弱了中間層作用。

從“理解優(yōu)先”到“控制優(yōu)先”
削弱中間層的技術路徑讓機器人任務執(zhí)行更工程化,但也有代價:可解釋性下降,分層系統(tǒng)能定位問題環(huán)節(jié),端到端或隱式模型錯誤難拆解;調試方式改變,問題轉向數據與訓練過程(如獎勵函數設計、仿真與現實差異、數據分布覆蓋),缺乏直接診斷手段;顯式中間層利于跨任務遷移,隱式表達更依賴訓練分布,泛化能力存不確定性。因此,這類方法目前在倉儲、制造等結構穩(wěn)定場景表現更佳。
從系統(tǒng)設計看,這是機器人從“以理解為中心”向“以控制為中心”的轉向。語言仍承擔訓練與交互角色,未來想象仍有價值,但不再是推理必要步驟。底層執(zhí)行上,系統(tǒng)更依賴連續(xù)感知與動作的直接映射及反饋優(yōu)化,是貼近控制本質的工程取舍。中間層未完全消失,而是從系統(tǒng)結構“壓縮”進模型內部,以隱式形式影響行為生成。機器人領域(VLA、世界模型)正走與智能駕駛相似的路徑:從規(guī)則符號、感知規(guī)劃,到感知直接映射動作,“顯式中間層”重要性下降。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



