欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<ruby id="cvxba"><dl id="cvxba"><address id="cvxba"></address></dl></ruby>

<rt id="cvxba"></rt>

<rt id="cvxba"></rt>

GTC2026揭示機器人技術新趨勢：減少顯式中間層，提升響應效率

03-20 06:36

本文來自微信公眾號：42號電波，作者：蘭博，編輯：James

在GTC2026大會上，黃仁勛展示了迪士尼經典IP雪寶機器人的現場互動，其背后是英偉達面向機器人領域的全套技術更新，包括新版Isaac Platform、多模態(tài)基礎模型以及強化仿真與現實耦合的訓練框架。這些技術延續(xù)了英偉達的積累，且呈現出工程化新變化：機器人系統(tǒng)正減少對“顯式中間層”的依賴，讓感知直接參與動作生成，以提升響應速度。

傳統(tǒng)VLA模型中，機器人接收感知信息后，需通過顯式語言理解任務并拆解為動作序列，語言在此充當中間層。而新路徑則弱化這類“顯式表征”，讓視覺輸入、環(huán)境狀態(tài)與任務條件直接進入策略模型，模型在隱空間推理后輸出連續(xù)控制信號。類似變化也出現在世界模型領域，清華大學交叉信息研究院與Galaxea AI的論文《Fast-WAM:Do World Action Models Need Test-time Future Imagination?》針對“未來想象”這一中間結構提出疑問，探討推理階段中間步驟的必要性。

無論是VLA還是世界模型，傳統(tǒng)“顯式中間層”易導致延遲過高，影響機器人在真實場景的落地。兩者指向同一底層變革：機器人系統(tǒng)正從分層顯式推理結構，轉向統(tǒng)一表示空間中的直接決策。

顯式中間層成機器人“負擔”

受大語言模型架構啟發(fā)，近一兩年的傳統(tǒng)VLA模型多采用分層架構，流程為語言理解、語義解析、任務分解、規(guī)劃及控制執(zhí)行。該結構模塊清晰、可解釋性強，但實際部署中問題漸顯：

表示形式不一致：語言模型處理離散符號，規(guī)劃模塊操作結構化任務，控制系統(tǒng)依賴連續(xù)時間信號，跨層轉換易積累誤差。

時間尺度不匹配：高層決策低頻，控制執(zhí)行需高頻閉環(huán)響應，分層易引發(fā)延遲與不一致。

世界模型（WAM）也存在類似問題，其通過生成未來視頻或狀態(tài)序列輔助決策，本質是“先想象，再行動”，將決策顯式展開為“預測、評估、選擇”，增加了計算與接口成本。

機器人需更快速響應

GTC期間英偉達展示的技術更新，體現了從傳統(tǒng)流水線向緊湊結構的演進，即從狀態(tài)直接到神經策略再到機器人連續(xù)動作。VLA模型中，語言位置發(fā)生變化：逐漸退出實時控制回路，更多作為訓練階段的監(jiān)督信號或高層約束，而非每步動作決策的輸入；策略模型直接輸出關節(jié)角速度或末端位姿等控制量，而非中間語義指令，內部完成多模塊決策過程。

這種“收斂”也出現在WAM領域，Fast-WAM研究有所體現。傳統(tǒng)WAM包含訓練階段學習視頻或狀態(tài)動態(tài)表示、推理階段生成未來軌跡再選動作兩部分；Fast-WAM則拆分驗證，采用簡化結構：保留訓練階段視頻建模，推理階段移除未來生成過程，直接從當前觀測輸出動作。實驗表明，去掉推理時未來想象對性能影響小，去掉視頻訓練則性能顯著下降，且Fast-WAM推理延遲降至約190毫秒，較需未來想象的方案提速約4倍。

中間層正在內化

結合GTC系統(tǒng)變化與Fast-WAM研究，可見機器人系統(tǒng)減少顯式中間層、將其“內化”為模型隱式表示的趨勢。語言和未來想象均為中間層，前者將復雜決策轉化為可解釋語義步驟，后者將決策展開為可預測軌跡。當前變化表現為：不再顯式生成語言指令、不再顯式預測未來軌跡，而是在統(tǒng)一表示空間直接完成決策。模型不再“先做人類可解釋的推理”再執(zhí)行動作，更接近控制系統(tǒng)“輸入狀態(tài)、輸出動作”的自然形式，中間過程無需顯式展開。

趨勢背后的基礎條件

“減少中間層”趨勢并非單一模型設計結果，而是近一年多基礎條件成熟的體現：

一是仿真與數據生成能力提升?；贜VIDIA Isaac Sim的大規(guī)模仿真，機器人可在虛擬環(huán)境生成穩(wěn)定可控、帶反饋的交互數據（含成功與失敗標簽），使策略模型不再完全依賴昂貴真實數據，實現從狀態(tài)到動作的直接訓練。Fast-WAM也依賴視頻級行為數據訓練，性能源于訓練階段學到的動態(tài)表示，而非推理階段額外生成過程。

二是算力與模型結構進步。端到端策略或隱式決策模型需在統(tǒng)一表示空間同時處理感知與控制，對計算資源和模型穩(wěn)定性要求高。AI發(fā)展帶來的GPU與邊緣計算平臺性能提升，使這類模型能在實際系統(tǒng)運行；時序Transformer、擴散策略等結構引入控制問題，讓模型在不顯式展開中間步驟時學習穩(wěn)定動作分布。

三是數據閉環(huán)方式改變。策略模型更多依賴交互數據（軌跡、獎勵信號、環(huán)境反饋），通過“執(zhí)行、反饋、再訓練”循環(huán)優(yōu)化，而非依賴人類提供結構化中間表示，進一步削弱了中間層作用。

從“理解優(yōu)先”到“控制優(yōu)先”

削弱中間層的技術路徑讓機器人任務執(zhí)行更工程化，但也有代價：可解釋性下降，分層系統(tǒng)能定位問題環(huán)節(jié)，端到端或隱式模型錯誤難拆解；調試方式改變，問題轉向數據與訓練過程（如獎勵函數設計、仿真與現實差異、數據分布覆蓋），缺乏直接診斷手段；顯式中間層利于跨任務遷移，隱式表達更依賴訓練分布，泛化能力存不確定性。因此，這類方法目前在倉儲、制造等結構穩(wěn)定場景表現更佳。

從系統(tǒng)設計看，這是機器人從“以理解為中心”向“以控制為中心”的轉向。語言仍承擔訓練與交互角色，未來想象仍有價值，但不再是推理必要步驟。底層執(zhí)行上，系統(tǒng)更依賴連續(xù)感知與動作的直接映射及反饋優(yōu)化，是貼近控制本質的工程取舍。中間層未完全消失，而是從系統(tǒng)結構“壓縮”進模型內部，以隱式形式影響行為生成。機器人領域（VLA、世界模型）正走與智能駕駛相似的路徑：從規(guī)則符號、感知規(guī)劃，到感知直接映射動作，“顯式中間層”重要性下降。

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

老干媽份額下滑、新勢力崛起：中式調味醬進入多元競爭時代？

《黑神話》之后誰主沉?。?026中國游戲業(yè)的3A困境與AI破局

山姆為何引發(fā)“摸河”爭議？

增換購市場格局重塑：自主品牌引領存量競爭，內循環(huán)成核心戰(zhàn)場

平陸運河：打通西南發(fā)展的關鍵脈絡

項目推薦

康小虎 · 健康小屋

康老板 · 氧療堂

<li id="7rnnk"><strong id="7rnnk"></strong></li>

<ruby id="7rnnk"><strong id="7rnnk"><address id="7rnnk"></address></strong></ruby>