華為小米,走上同一條技術(shù)路線
連華為都在融合VLA
ADS 5發(fā)布前夕,華為與上海交通大學(xué)合作,發(fā)了這樣一篇成果:
一個框架,2B模型,統(tǒng)一VLA和世界模型。
這意味著華為正在探索新的技術(shù)方向。
華為車BU CEO靳玉志此前曾表示,VLA是“取巧”方案,華為選擇的WA(世界行為模型)路線才能實(shí)現(xiàn)自動駕駛。
然而就在ADS 5即將上線之際,華為參與的這項(xiàng)工作,嘗試把VLA和世界模型融合了。這條路線與很多玩家不謀而合,比如小米和理想。

華為與上交大,統(tǒng)一VLA和世界模型
作者團(tuán)隊(duì)認(rèn)為,VLA和世界模型這兩大主流范式,各有各的短板。
VLA擅長推理,一看路就知道現(xiàn)在該怎么開,但問題是,VLA無法預(yù)測執(zhí)行決策后,下一秒周圍環(huán)境會怎么變。理解當(dāng)下能力強(qiáng),預(yù)測未來不行。
而世界模型預(yù)測能力不錯,它能根據(jù)眼前的路況,推測出下一秒的環(huán)境變化,但也有問題,它只負(fù)責(zé)預(yù)測,不對預(yù)測結(jié)果進(jìn)行反思推理,確定結(jié)果是否安全。
因此這篇論文的關(guān)鍵,不是單獨(dú)增強(qiáng)VLA或世界模型的能力,而是把“預(yù)測未來”和“反思未來”形成閉環(huán)。

為了將兩者優(yōu)勢融合,團(tuán)隊(duì)提出了VLA-World,在執(zhí)行駕駛?cè)蝿?wù)時,會先進(jìn)行短期預(yù)測,生成對未來0.5秒的預(yù)測幀,然后對自己生成的這個未來幀,進(jìn)行反思,預(yù)判其中的風(fēng)險,最終輸出駕駛決策,以及未來3秒的預(yù)測軌跡。
為了打通從感知到預(yù)測,再到反思的鏈路,團(tuán)隊(duì)設(shè)計了三階段訓(xùn)練流程。
首先,團(tuán)隊(duì)選擇Qwen2-VL-2B作為基模,然后進(jìn)行多視圖未來幀預(yù)測預(yù)訓(xùn)練,并強(qiáng)制不同視角生成圖片的一致性,激活模型的視覺生成能力。
第二步,對模型進(jìn)行監(jiān)督微調(diào),利用nuScenes-GR-20K數(shù)據(jù)集,進(jìn)行多任務(wù)混合訓(xùn)練,把駕駛概念注入模型。
最后,采用GRPO算法對模型進(jìn)行強(qiáng)化學(xué)習(xí),增強(qiáng)模型的高級推理和決策能力。其中,獎勵函數(shù)由五個部分組成:
- 格式獎勵:確保輸出結(jié)構(gòu)規(guī)范
- 短期預(yù)測獎勵:鼓勵準(zhǔn)確的短期軌跡預(yù)測
- 視覺約束獎勵:確保生成的視覺token數(shù)量正確且合理
- 動作獎勵:基于F1分?jǐn)?shù)評估高層動作決策
- 軌跡獎勵:確保軌跡精度與運(yùn)動學(xué)一致性

通過上述方法,模型同時獲得了預(yù)測想象和反思推理能力。除此之外,還驗(yàn)證了自動駕駛模型的Scaling Law。
團(tuán)隊(duì)發(fā)現(xiàn),將基模換成7B大小后,L2誤差即模型預(yù)測值和真實(shí)值的差距,明顯降低。

不過,這項(xiàng)工作還有一些潛在問題,比如生成的未來幀分辨率只有128X192,不太清晰,可能會損失一些場景信息,影響模型決策。
另外,目前模型的推理鏈條比較長,可能會影響駕駛?cè)蝿?wù)的實(shí)時性。
最后簡單介紹一下作者團(tuán)隊(duì),這篇論文由上海交通大學(xué)和華為合作完成。第一作者單位是上海交通大學(xué)人工智能研究院,主要作者Wang Guoqing 、 Ren Xiangxuan和Tang Pin都是上交大的博士。
通訊作者馬超是國家優(yōu)青、上海交通大學(xué)教授、博導(dǎo),谷歌學(xué)術(shù)被引次數(shù)超1.4萬次,長期和華為合作,研究成果此前落地了華為達(dá)芬奇芯片和輔助駕駛MDC平臺。

此次他們和華為諾亞方舟研究室的Zhao Guodongfang、Feng Bailan合作,共同提出了VLA-World。
走向融合
這項(xiàng)成果押注的方向,最近隱隱成為了行業(yè)趨勢。
比如不久前在英偉達(dá)GTC上,理想VLA負(fù)責(zé)人詹錕就在演講中介紹了MindVLA-o1,通過引入預(yù)測式的隱世界模型,讓模型能夠預(yù)判未來幾秒的場景變化,做出更好的決策。

幾乎同時,小米XLA認(rèn)知大模型負(fù)責(zé)人陳龍也透露,小米最新的XLA將VLA和世界模型融合了,通過潛空間推理,推演當(dāng)前場景的變化。

主機(jī)廠在模型層面實(shí)踐,推動VLA和世界模型融合。供應(yīng)商也從更寬廣的行業(yè)視角,見證了這一趨勢。
數(shù)據(jù)基建玩家光輪智能的創(chuàng)始人謝晨,最近在采訪中透露,很多客戶正在把世界模型作為基座模型,提升VLA的能力。
兩條路線的評價基準(zhǔn),也正在融合。比如有一家叫ENACT的公司,就基于VLA的評價體系,打造了世界模型的評價體系。
“如果兩件事的評判標(biāo)準(zhǔn)越來越接近,那這兩件事,將來可能就會是一回事”
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com






