4.5億美元融資背后:Rhoda AI以DVA技術(shù)挑戰(zhàn)機(jī)器人主流架構(gòu)
本文來源:微信公眾號“42號電波”,作者蘭博,編輯James,原標(biāo)題《4.5億美元融資背后:Rhoda AI用DVA挑戰(zhàn)機(jī)器人主流架構(gòu)》
沉寂18個月后,美國機(jī)器人企業(yè)Rhoda AI近期結(jié)束隱身狀態(tài),推出核心技術(shù)DVA(直接視頻動作)模型,試圖打破VLA(視覺-語言-動作)模型在行業(yè)內(nèi)的主流地位。
與VLA模型相比,Rhoda AI的技術(shù)路徑差異顯著。DVA模型旨在讓機(jī)器人直接從視頻中學(xué)習(xí)世界的變化規(guī)律,再將這種預(yù)測能力轉(zhuǎn)化為動作控制指令。
在VLA模型占據(jù)具身智能領(lǐng)域半壁江山的背景下,DVA堪稱“反主流”路線,但資本的態(tài)度已給出明確信號。
伴隨DVA模型發(fā)布,Rhoda AI宣布完成4.5億美元(約合人民幣32億元)A輪融資,公司估值達(dá)17億美元(約合人民幣123億元)。
單輪融資超30億元的規(guī)模,即便在國內(nèi)也僅有少數(shù)明星機(jī)器人企業(yè)能企及,這背后是資本對DVA技術(shù)路線的堅(jiān)定押注。
這場技術(shù)路線之爭的核心問題只有一個:何種方式才能讓機(jī)器人真正走進(jìn)現(xiàn)實(shí)生活?

數(shù)據(jù):路線之爭的導(dǎo)火索
要理解機(jī)器人行業(yè)為何有如此多復(fù)雜的技術(shù)路線,需先明確數(shù)據(jù)在其中的關(guān)鍵作用。
當(dāng)前主流的VLA模型訓(xùn)練高度依賴機(jī)器人遙操作數(shù)據(jù),這類數(shù)據(jù)包含視覺觀察、機(jī)器人狀態(tài)及人類操作動作。每條數(shù)據(jù)都需真實(shí)機(jī)器人、專業(yè)操作員和專用設(shè)備支持,數(shù)據(jù)成本極高。
更關(guān)鍵的是,VLA模型難以覆蓋現(xiàn)實(shí)世界中的長尾場景。實(shí)驗(yàn)室環(huán)境下機(jī)器人任務(wù)成功率看似可觀,但在真實(shí)應(yīng)用場景中成功率會大幅波動。
出現(xiàn)這種差異的原因很簡單:真實(shí)世界的變化遠(yuǎn)多于訓(xùn)練數(shù)據(jù)。在此背景下,行業(yè)開始探索機(jī)器人脫離大量人類標(biāo)注數(shù)據(jù)完成任務(wù)的可能性。
Rhoda AI的DVA模型在數(shù)據(jù)處理上采取了截然不同的策略。
Rhoda AI先利用大規(guī)?;ヂ?lián)網(wǎng)視頻對模型進(jìn)行預(yù)訓(xùn)練,讓系統(tǒng)從海量視頻中學(xué)習(xí)物體運(yùn)動、接觸關(guān)系及人類操作模式等基本物理規(guī)律。完成視頻預(yù)訓(xùn)練后,再通過少量真實(shí)機(jī)器人數(shù)據(jù)微調(diào),將對“世界如何變化”的理解映射到具體機(jī)器人動作控制中。
按照這一技術(shù)邏輯,DVA試圖將機(jī)器人學(xué)習(xí)的大部分過程,從昂貴的機(jī)器人數(shù)據(jù)轉(zhuǎn)移到規(guī)模更大的視頻數(shù)據(jù)上。
畢竟,即便遙操作數(shù)據(jù)再豐富,在數(shù)十億小時的網(wǎng)絡(luò)視頻數(shù)據(jù)面前也只是冰山一角,且網(wǎng)絡(luò)視頻數(shù)據(jù)成本更低。

DVA:將機(jī)器人控制轉(zhuǎn)化為視頻生成
Rhoda AI提出的DVA架構(gòu),核心思路是讓機(jī)器人先“想象”未來,再決定動作。
初看之下,這與此前熱議的“世界模型”似乎并無二致。但DVA的最大創(chuàng)新在于將“預(yù)測未來視頻”直接轉(zhuǎn)化為動作控制,整個系統(tǒng)分為兩步:
預(yù)測未來視頻:首先運(yùn)用因果視頻模型,根據(jù)當(dāng)前視覺觀察預(yù)測未來幾幀畫面。機(jī)器人會先設(shè)想“若采取此動作,世界會發(fā)生何種變化”。
視頻轉(zhuǎn)動作:預(yù)測完成后,通過逆動力學(xué)模型,根據(jù)預(yù)測的視頻變化反推機(jī)器人應(yīng)執(zhí)行的動作。形成“觀察-想象-行動-再觀察”的閉環(huán),每秒重復(fù)多次。關(guān)鍵在于,該模型僅需約10小時數(shù)據(jù)即可完成訓(xùn)練,且能跨任務(wù)復(fù)用。

為使視頻預(yù)測真正實(shí)現(xiàn)機(jī)器人控制,Rhoda AI還提出兩項(xiàng)關(guān)鍵支撐技術(shù):
上下文攤銷:傳統(tǒng)視頻模型通常逐幀預(yù)測未來,而Rhoda AI的方法是在多個時間點(diǎn)同時預(yù)測未來幀。這讓模型能處理數(shù)百幀的長上下文視頻,擁有更長視覺記憶,使機(jī)器人具備處理長程任務(wù)的能力。
蛙跳推理:由于視頻生成需大量算力,Rhoda AI采用類似流水線的策略——機(jī)器人執(zhí)行當(dāng)前動作時,模型已在預(yù)測下一步視頻。這種推理與執(zhí)行并行的方式,可大幅降低延遲。
不依賴遙操數(shù)據(jù)規(guī)模
Rhoda AI在技術(shù)博客中展示了完整實(shí)驗(yàn),以證明DVA在真實(shí)任務(wù)中的數(shù)據(jù)效率和任務(wù)控制能力。
其中頗具代表性的是拆箱任務(wù):機(jī)器人需從箱子中取出物品并倒入另一容器,過程包含抓取、移動、傾倒等連續(xù)動作,對視覺理解和動作協(xié)調(diào)要求較高。
根據(jù)Rhoda AI披露的數(shù)據(jù),該任務(wù)僅用約11小時機(jī)器人真機(jī)操作數(shù)據(jù),模型即可穩(wěn)定完成操作。
相比之下,傳統(tǒng)依賴遙操作數(shù)據(jù)訓(xùn)練的機(jī)器人模型,往往需要數(shù)百小時甚至更長時間的數(shù)據(jù)才能達(dá)到類似水平。
這正是DVA路線反復(fù)強(qiáng)調(diào)的優(yōu)勢:通過互聯(lián)網(wǎng)規(guī)模視頻預(yù)訓(xùn)練,模型已提前掌握大量物體運(yùn)動和物理變化的“運(yùn)動先驗(yàn)”,因此在機(jī)器人場景中只需少量數(shù)據(jù)即可完成適配。
另一項(xiàng)接近工業(yè)環(huán)境的任務(wù)是容器拆解:機(jī)器人需識別容器結(jié)構(gòu),完成拆解和分類處理等步驟,屬于典型的多階段流程操作。
該任務(wù)使用的機(jī)器人真機(jī)數(shù)據(jù)約17小時,同樣遠(yuǎn)低于傳統(tǒng)機(jī)器人訓(xùn)練規(guī)模。更重要的是,這類任務(wù)存在明顯時間依賴關(guān)系,步驟必須按正確順序執(zhí)行,否則流程會失敗。
實(shí)驗(yàn)結(jié)果顯示,DVA在這類任務(wù)中表現(xiàn)穩(wěn)定,團(tuán)隊(duì)將其視為視頻預(yù)測路線在長流程操作中的重要優(yōu)勢。
總體而言,Rhoda AI的核心觀點(diǎn)清晰:將機(jī)器人控制轉(zhuǎn)化為視頻預(yù)測問題后,系統(tǒng)可借助互聯(lián)網(wǎng)規(guī)模視頻數(shù)據(jù)學(xué)習(xí)物理世界基本規(guī)律,從而大幅降低對昂貴機(jī)器人數(shù)據(jù)的依賴。
在此框架下,機(jī)器人并非直接學(xué)習(xí)“應(yīng)執(zhí)行何種動作”,而是先學(xué)習(xí)“世界接下來會發(fā)生什么變化”,再根據(jù)預(yù)測結(jié)果推導(dǎo)動作策略——這正是DVA架構(gòu)與主流VLA路線的最大差異。
機(jī)器人的Transformer時刻是否到來?
整體來看,DVA架構(gòu)確實(shí)新穎:通過將控制問題轉(zhuǎn)化為視頻生成,降低了對遙操數(shù)據(jù)的依賴,同時具備長上下文記憶和可解釋性。
因此,DVA在數(shù)據(jù)效率和泛化能力上,讓人聯(lián)想到Transformer在自然語言處理領(lǐng)域引發(fā)的范式轉(zhuǎn)移,它或許能為具身智能領(lǐng)域帶來類似突破。
但問題并非如此簡單,實(shí)時推理延遲是DVA模型目前面臨的最大挑戰(zhàn)。
盡管Rhoda AI提到用蛙跳推理降低延遲,但現(xiàn)實(shí)生活的復(fù)雜性決定了機(jī)器人所處環(huán)境多變,部分實(shí)時操作問題需要機(jī)器人瞬間反應(yīng)。
若一個簡單的“拿起杯子”動作都需機(jī)器人反應(yīng)五六秒,其生活使用體驗(yàn)將大打折扣;更不用說做飯這類長程任務(wù),若延遲過高,菜可能會糊掉。
另一個問題是算力。雖然DVA在數(shù)據(jù)成本上有所節(jié)省,但需在算力上代償——大量視頻生成所需的計(jì)算開銷巨大,且當(dāng)前全球算力稀缺,短期內(nèi)算力成本下降并不現(xiàn)實(shí)。
因此,Rhoda AI的DVA模型能否真正改變行業(yè),關(guān)鍵在于算力成本、實(shí)時推理適配落地等問題能否解決。
若這些問題得到解決,未來機(jī)器人學(xué)習(xí)世界的方式或許真會從“預(yù)測動作”轉(zhuǎn)向“預(yù)測未來”,這可能正是具身智能的下一次范式轉(zhuǎn)移。
參考鏈接:
https://www.rhoda.ai/research/direct-video-action
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



