欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<rt id="48g37"></rt>

4.5億美元融資背后：Rhoda AI以DVA技術(shù)挑戰(zhàn)機(jī)器人主流架構(gòu)

03-14 06:33

本文來源：微信公眾號“42號電波”，作者蘭博，編輯James，原標(biāo)題《4.5億美元融資背后：Rhoda AI用DVA挑戰(zhàn)機(jī)器人主流架構(gòu)》

沉寂18個月后，美國機(jī)器人企業(yè)Rhoda AI近期結(jié)束隱身狀態(tài)，推出核心技術(shù)DVA（直接視頻動作）模型，試圖打破VLA（視覺-語言-動作）模型在行業(yè)內(nèi)的主流地位。

與VLA模型相比，Rhoda AI的技術(shù)路徑差異顯著。DVA模型旨在讓機(jī)器人直接從視頻中學(xué)習(xí)世界的變化規(guī)律，再將這種預(yù)測能力轉(zhuǎn)化為動作控制指令。

在VLA模型占據(jù)具身智能領(lǐng)域半壁江山的背景下，DVA堪稱“反主流”路線，但資本的態(tài)度已給出明確信號。

伴隨DVA模型發(fā)布，Rhoda AI宣布完成4.5億美元（約合人民幣32億元）A輪融資，公司估值達(dá)17億美元（約合人民幣123億元）。

單輪融資超30億元的規(guī)模，即便在國內(nèi)也僅有少數(shù)明星機(jī)器人企業(yè)能企及，這背后是資本對DVA技術(shù)路線的堅(jiān)定押注。

這場技術(shù)路線之爭的核心問題只有一個：何種方式才能讓機(jī)器人真正走進(jìn)現(xiàn)實(shí)生活？

數(shù)據(jù)：路線之爭的導(dǎo)火索

要理解機(jī)器人行業(yè)為何有如此多復(fù)雜的技術(shù)路線，需先明確數(shù)據(jù)在其中的關(guān)鍵作用。

當(dāng)前主流的VLA模型訓(xùn)練高度依賴機(jī)器人遙操作數(shù)據(jù)，這類數(shù)據(jù)包含視覺觀察、機(jī)器人狀態(tài)及人類操作動作。每條數(shù)據(jù)都需真實(shí)機(jī)器人、專業(yè)操作員和專用設(shè)備支持，數(shù)據(jù)成本極高。

更關(guān)鍵的是，VLA模型難以覆蓋現(xiàn)實(shí)世界中的長尾場景。實(shí)驗(yàn)室環(huán)境下機(jī)器人任務(wù)成功率看似可觀，但在真實(shí)應(yīng)用場景中成功率會大幅波動。

出現(xiàn)這種差異的原因很簡單：真實(shí)世界的變化遠(yuǎn)多于訓(xùn)練數(shù)據(jù)。在此背景下，行業(yè)開始探索機(jī)器人脫離大量人類標(biāo)注數(shù)據(jù)完成任務(wù)的可能性。

Rhoda AI的DVA模型在數(shù)據(jù)處理上采取了截然不同的策略。

Rhoda AI先利用大規(guī)?；ヂ?lián)網(wǎng)視頻對模型進(jìn)行預(yù)訓(xùn)練，讓系統(tǒng)從海量視頻中學(xué)習(xí)物體運(yùn)動、接觸關(guān)系及人類操作模式等基本物理規(guī)律。完成視頻預(yù)訓(xùn)練后，再通過少量真實(shí)機(jī)器人數(shù)據(jù)微調(diào)，將對“世界如何變化”的理解映射到具體機(jī)器人動作控制中。

按照這一技術(shù)邏輯，DVA試圖將機(jī)器人學(xué)習(xí)的大部分過程，從昂貴的機(jī)器人數(shù)據(jù)轉(zhuǎn)移到規(guī)模更大的視頻數(shù)據(jù)上。

畢竟，即便遙操作數(shù)據(jù)再豐富，在數(shù)十億小時的網(wǎng)絡(luò)視頻數(shù)據(jù)面前也只是冰山一角，且網(wǎng)絡(luò)視頻數(shù)據(jù)成本更低。

DVA：將機(jī)器人控制轉(zhuǎn)化為視頻生成

Rhoda AI提出的DVA架構(gòu)，核心思路是讓機(jī)器人先“想象”未來，再決定動作。

初看之下，這與此前熱議的“世界模型”似乎并無二致。但DVA的最大創(chuàng)新在于將“預(yù)測未來視頻”直接轉(zhuǎn)化為動作控制，整個系統(tǒng)分為兩步：

預(yù)測未來視頻：首先運(yùn)用因果視頻模型，根據(jù)當(dāng)前視覺觀察預(yù)測未來幾幀畫面。機(jī)器人會先設(shè)想“若采取此動作，世界會發(fā)生何種變化”。

視頻轉(zhuǎn)動作：預(yù)測完成后，通過逆動力學(xué)模型，根據(jù)預(yù)測的視頻變化反推機(jī)器人應(yīng)執(zhí)行的動作。形成“觀察-想象-行動-再觀察”的閉環(huán)，每秒重復(fù)多次。關(guān)鍵在于，該模型僅需約10小時數(shù)據(jù)即可完成訓(xùn)練，且能跨任務(wù)復(fù)用。

為使視頻預(yù)測真正實(shí)現(xiàn)機(jī)器人控制，Rhoda AI還提出兩項(xiàng)關(guān)鍵支撐技術(shù)：

上下文攤銷：傳統(tǒng)視頻模型通常逐幀預(yù)測未來，而Rhoda AI的方法是在多個時間點(diǎn)同時預(yù)測未來幀。這讓模型能處理數(shù)百幀的長上下文視頻，擁有更長視覺記憶，使機(jī)器人具備處理長程任務(wù)的能力。

蛙跳推理：由于視頻生成需大量算力，Rhoda AI采用類似流水線的策略——機(jī)器人執(zhí)行當(dāng)前動作時，模型已在預(yù)測下一步視頻。這種推理與執(zhí)行并行的方式，可大幅降低延遲。

不依賴遙操數(shù)據(jù)規(guī)模

Rhoda AI在技術(shù)博客中展示了完整實(shí)驗(yàn)，以證明DVA在真實(shí)任務(wù)中的數(shù)據(jù)效率和任務(wù)控制能力。

其中頗具代表性的是拆箱任務(wù)：機(jī)器人需從箱子中取出物品并倒入另一容器，過程包含抓取、移動、傾倒等連續(xù)動作，對視覺理解和動作協(xié)調(diào)要求較高。

根據(jù)Rhoda AI披露的數(shù)據(jù)，該任務(wù)僅用約11小時機(jī)器人真機(jī)操作數(shù)據(jù)，模型即可穩(wěn)定完成操作。

相比之下，傳統(tǒng)依賴遙操作數(shù)據(jù)訓(xùn)練的機(jī)器人模型，往往需要數(shù)百小時甚至更長時間的數(shù)據(jù)才能達(dá)到類似水平。

這正是DVA路線反復(fù)強(qiáng)調(diào)的優(yōu)勢：通過互聯(lián)網(wǎng)規(guī)模視頻預(yù)訓(xùn)練，模型已提前掌握大量物體運(yùn)動和物理變化的“運(yùn)動先驗(yàn)”，因此在機(jī)器人場景中只需少量數(shù)據(jù)即可完成適配。

另一項(xiàng)接近工業(yè)環(huán)境的任務(wù)是容器拆解：機(jī)器人需識別容器結(jié)構(gòu)，完成拆解和分類處理等步驟，屬于典型的多階段流程操作。

該任務(wù)使用的機(jī)器人真機(jī)數(shù)據(jù)約17小時，同樣遠(yuǎn)低于傳統(tǒng)機(jī)器人訓(xùn)練規(guī)模。更重要的是，這類任務(wù)存在明顯時間依賴關(guān)系，步驟必須按正確順序執(zhí)行，否則流程會失敗。

實(shí)驗(yàn)結(jié)果顯示，DVA在這類任務(wù)中表現(xiàn)穩(wěn)定，團(tuán)隊(duì)將其視為視頻預(yù)測路線在長流程操作中的重要優(yōu)勢。

總體而言，Rhoda AI的核心觀點(diǎn)清晰：將機(jī)器人控制轉(zhuǎn)化為視頻預(yù)測問題后，系統(tǒng)可借助互聯(lián)網(wǎng)規(guī)模視頻數(shù)據(jù)學(xué)習(xí)物理世界基本規(guī)律，從而大幅降低對昂貴機(jī)器人數(shù)據(jù)的依賴。

在此框架下，機(jī)器人并非直接學(xué)習(xí)“應(yīng)執(zhí)行何種動作”，而是先學(xué)習(xí)“世界接下來會發(fā)生什么變化”，再根據(jù)預(yù)測結(jié)果推導(dǎo)動作策略——這正是DVA架構(gòu)與主流VLA路線的最大差異。

機(jī)器人的Transformer時刻是否到來？

整體來看，DVA架構(gòu)確實(shí)新穎：通過將控制問題轉(zhuǎn)化為視頻生成，降低了對遙操數(shù)據(jù)的依賴，同時具備長上下文記憶和可解釋性。

因此，DVA在數(shù)據(jù)效率和泛化能力上，讓人聯(lián)想到Transformer在自然語言處理領(lǐng)域引發(fā)的范式轉(zhuǎn)移，它或許能為具身智能領(lǐng)域帶來類似突破。

但問題并非如此簡單，實(shí)時推理延遲是DVA模型目前面臨的最大挑戰(zhàn)。

盡管Rhoda AI提到用蛙跳推理降低延遲，但現(xiàn)實(shí)生活的復(fù)雜性決定了機(jī)器人所處環(huán)境多變，部分實(shí)時操作問題需要機(jī)器人瞬間反應(yīng)。

若一個簡單的“拿起杯子”動作都需機(jī)器人反應(yīng)五六秒，其生活使用體驗(yàn)將大打折扣；更不用說做飯這類長程任務(wù)，若延遲過高，菜可能會糊掉。

另一個問題是算力。雖然DVA在數(shù)據(jù)成本上有所節(jié)省，但需在算力上代償——大量視頻生成所需的計(jì)算開銷巨大，且當(dāng)前全球算力稀缺，短期內(nèi)算力成本下降并不現(xiàn)實(shí)。

因此，Rhoda AI的DVA模型能否真正改變行業(yè)，關(guān)鍵在于算力成本、實(shí)時推理適配落地等問題能否解決。

若這些問題得到解決，未來機(jī)器人學(xué)習(xí)世界的方式或許真會從“預(yù)測動作”轉(zhuǎn)向“預(yù)測未來”，這可能正是具身智能的下一次范式轉(zhuǎn)移。

參考鏈接：

https://www.rhoda.ai/research/direct-video-action

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

上海灘大佬的處世之道：不重稱兄道弟，更重順勢而為

曾率先盈利的理想汽車，如今在行業(yè)競爭中陷入虧損困境

Gemini賦能谷歌地圖迎重大升級：智能問答+沉浸式導(dǎo)航重塑出行體驗(yàn)

魅族手機(jī)戰(zhàn)略轉(zhuǎn)型：聚焦車機(jī)與AI，告別舊模式

具身數(shù)據(jù)獨(dú)角獸崛起：上百家產(chǎn)業(yè)方爭相合作

項(xiàng)目推薦

<rt id="vdrqf"></rt>

<rt id="vdrqf"><progress id="vdrqf"></progress></rt>

<span id="vdrqf"><progress id="vdrqf"></progress></span>