通研院新框架賦能人形機(jī)器人 統(tǒng)一策略掌握極限動(dòng)作成功率超90%
2026年春晚舞臺(tái)上,人形機(jī)器人再次吸引眾人目光。
對(duì)比去年略顯生硬的扭秧歌表演,宇樹人形機(jī)器人如今已能流暢完成武術(shù)、雙節(jié)棍、醉拳等一系列動(dòng)作,絲滑的操作讓全網(wǎng)驚嘆,也讓大眾切實(shí)感受到人形機(jī)器人技術(shù)的飛速進(jìn)步。

隨著人形機(jī)器人運(yùn)動(dòng)能力不斷突破,支撐這些極限動(dòng)作的關(guān)鍵技術(shù)也逐漸進(jìn)入公眾視野。
近日,北京通用人工智能研究院(簡(jiǎn)稱“通研院”)發(fā)布并開源新一代人形機(jī)器人通用運(yùn)動(dòng)框架OmniXtreme(通極)。
該框架使機(jī)器人能通過一套統(tǒng)一策略完成后空翻、托馬斯全旋、武術(shù)踢擊等多種高動(dòng)態(tài)動(dòng)作,在真實(shí)機(jī)器人上的成功率超過90%。
這項(xiàng)成果提出了全新的訓(xùn)練路徑:不再針對(duì)每個(gè)動(dòng)作單獨(dú)訓(xùn)練策略,而是通過生成式模型與強(qiáng)化學(xué)習(xí)相結(jié)合的方式,讓機(jī)器人掌握一整類極限運(yùn)動(dòng)能力。
通研院研究員賈寶雄在接受智東西采訪時(shí)表示:“過去許多機(jī)器人控制模型都需要針對(duì)單個(gè)動(dòng)作反復(fù)調(diào)整參數(shù)。OmniXtreme的核心目標(biāo),就是找到一種統(tǒng)一策略,讓機(jī)器人能夠?qū)W習(xí)并泛化不同類型的極限動(dòng)作。”
01.從“蹣跚學(xué)步”到“動(dòng)作達(dá)人”,人形機(jī)器人運(yùn)動(dòng)能力的飛躍
人形機(jī)器人的這波熱度,可以追溯到2024年北京大學(xué)春季運(yùn)動(dòng)會(huì)。當(dāng)時(shí),北京大學(xué)智能學(xué)院學(xué)生方陣中的機(jī)器人因步態(tài)緩慢、動(dòng)作僵硬,被網(wǎng)友調(diào)侃為“太奶機(jī)器人”。

2024年4月,北京大學(xué)春季運(yùn)動(dòng)會(huì)智能學(xué)院學(xué)生方陣
此后兩年,人形機(jī)器人的運(yùn)動(dòng)控制能力快速迭代升級(jí)。
2025年蛇年春晚,機(jī)器人已能完成扭秧歌等舞蹈動(dòng)作,但整體動(dòng)作仍偏機(jī)械。同年8月,在首屆世界人形機(jī)器人運(yùn)動(dòng)會(huì)上,通研院團(tuán)隊(duì)?wèi){借融合探戈、太極、恰恰的舞蹈表演,獲得單機(jī)舞蹈比賽冠軍。

2025年8月,通研院在首屆世界人形機(jī)器人運(yùn)動(dòng)會(huì)上獲得單機(jī)舞蹈比賽冠軍
到2026年春晚,《武bot》節(jié)目中的機(jī)器人完成了武術(shù)動(dòng)作,運(yùn)動(dòng)能力實(shí)現(xiàn)進(jìn)一步突破。
在賈寶雄看來,這一變化背后是“技術(shù)破壁”,他用“破次元壁”來形容這一過程:“以前機(jī)器人更多停留在實(shí)驗(yàn)室或科研展示中,很少有人會(huì)覺得它能達(dá)到現(xiàn)在的水平。但隨著算法和硬件的快速迭代,我們逐漸接受機(jī)器人不僅能跳舞,還能完成很多高難度動(dòng)作。”
02.一套算法搞定極限動(dòng)作,OmniXtreme破解“多動(dòng)作控制難題”
讓機(jī)器人完成翻騰、倒立、霹靂舞等高動(dòng)態(tài)動(dòng)作,一直是機(jī)器人控制領(lǐng)域的難題。
近年來,強(qiáng)化學(xué)習(xí)成為主流技術(shù)路線。通過大規(guī)模仿真訓(xùn)練,機(jī)器人可以逐步學(xué)會(huì)復(fù)雜動(dòng)作。但當(dāng)動(dòng)作種類增多時(shí),系統(tǒng)往往會(huì)出現(xiàn)新問題——?jiǎng)幼髟蕉?,控制精度越下降?/p>
OmniXtreme正是為解決這一問題而生,該框架采用兩階段學(xué)習(xí)機(jī)制。
第一階段,研究團(tuán)隊(duì)先為不同動(dòng)作訓(xùn)練多個(gè)“專家策略”,再利用生成式建模方法,將這些專家能力融合為統(tǒng)一策略。這一過程借鑒了生成模型中的Flow Matching技術(shù),使系統(tǒng)能夠?qū)W習(xí)“動(dòng)作分布”,而非簡(jiǎn)單的動(dòng)作映射。
賈寶雄用一個(gè)類比解釋道:“可以把它理解為先讓機(jī)器人模仿很多頂級(jí)舞者的動(dòng)作,然后再在此基礎(chǔ)上通過強(qiáng)化學(xué)習(xí)不斷調(diào)整,使其能在真實(shí)環(huán)境中穩(wěn)定完成這些動(dòng)作?!?/p>
相比傳統(tǒng)強(qiáng)化學(xué)習(xí)需要不斷通過獎(jiǎng)勵(lì)函數(shù)逼近目標(biāo)動(dòng)作,生成式模型在初始階段就能建立更完整的動(dòng)作表達(dá),因此在多動(dòng)作場(chǎng)景下具有更好的泛化能力。
03.突破Sim2Real瓶頸,人形機(jī)器人在真實(shí)世界實(shí)現(xiàn)翻跟頭
在人形機(jī)器人研究中,Sim2Real(仿真到真實(shí))一直是核心挑戰(zhàn)。很多動(dòng)作在仿真環(huán)境中可以完成,但部署到真實(shí)機(jī)器人時(shí)往往會(huì)失敗。
OmniXtreme的第二階段訓(xùn)練,重點(diǎn)解決的就是這一問題。研究團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)過程中加入了大量真實(shí)物理因素,例如:
?電機(jī)扭矩—速度關(guān)系建模
?制動(dòng)功率限制
?電池能量傳遞模型
?更真實(shí)的執(zhí)行器物理模擬
這些設(shè)計(jì)顯著提升了策略在真實(shí)機(jī)器人上的可執(zhí)行性。賈寶雄告訴智東西,過去很多團(tuán)隊(duì)在部署時(shí)需要通過網(wǎng)線連接主機(jī)進(jìn)行控制,而OmniXtreme的目標(biāo)是實(shí)現(xiàn)完全上機(jī)運(yùn)行。
“真正的難點(diǎn)不只是算法本身,還包括模型推理效率和硬件適配。如果這些問題得到解決,再加上穩(wěn)定的控制模型,就能實(shí)現(xiàn)現(xiàn)在這種真實(shí)部署效果?!睂?shí)驗(yàn)結(jié)果顯示,在真實(shí)機(jī)器人測(cè)試中,該方法在多種高動(dòng)態(tài)動(dòng)作任務(wù)上的成功率超過90%。

真機(jī)部署成功率
在不少人看來,翻跟頭、跳舞等動(dòng)作更像“炫技”,似乎與實(shí)際應(yīng)用關(guān)系不大。對(duì)此,賈寶雄解釋道:“從科研角度來說,如果機(jī)器人能完成這些極限動(dòng)作,那么在人類能勝任的工作場(chǎng)景中,它通常也能完成任務(wù)?!?/p>
他將這一過程比作“先強(qiáng)身健體”,并補(bǔ)充說:“如果機(jī)器人能夠掌握人類極限運(yùn)動(dòng)的控制能力,那么在工業(yè)、服務(wù)等場(chǎng)景中的任務(wù)執(zhí)行,其實(shí)會(huì)更容易。”
因此,極限運(yùn)動(dòng)能力往往被視為機(jī)器人控制能力的“上限測(cè)試”。
04.企業(yè)造本體、研究院研“大腦”,人形機(jī)器人研發(fā)路徑清晰呈現(xiàn)
值得一提的是,這項(xiàng)研究的主要作者均來自北京通用人工智能研究院通用人工智能協(xié)同攻關(guān)合作體人才培養(yǎng)計(jì)劃(簡(jiǎn)稱“通計(jì)劃”)的聯(lián)培博士生。
在研發(fā)模式上,通研院采用分工協(xié)作的路徑:企業(yè)負(fù)責(zé)機(jī)器人本體,研究院負(fù)責(zé)核心智能算法。例如,通研院與宇樹科技合作建設(shè)具身智能聯(lián)合實(shí)驗(yàn)室開展協(xié)同研究。

2025年9月,通研院在國(guó)際機(jī)器人學(xué)習(xí)大會(huì)CoRL獲杰出論文獎(jiǎng)
賈寶雄介紹,很多技術(shù)突破其實(shí)來自雙方工程師的交流,“有些仿真和現(xiàn)實(shí)之間的差距,是我們和硬件工程師一起討論后才發(fā)現(xiàn)的?!?/p>
在產(chǎn)業(yè)化方面,通研院還孵化了具身智能創(chuàng)業(yè)公司德塔智能(Delta Intelligence)。德塔智能借助通研院積累的技術(shù)能力,在工業(yè)制造、巡檢、家居等場(chǎng)景中探索人形機(jī)器人的實(shí)際應(yīng)用。目前相關(guān)技術(shù)已在電網(wǎng)巡檢、汽車制造等場(chǎng)景開展測(cè)試。
支撐這套路徑的還有通研院的人才機(jī)制。OmniXtreme的研發(fā)團(tuán)隊(duì)主要來自通研院“通計(jì)劃”博士生培養(yǎng)項(xiàng)目。該項(xiàng)目由通研院聯(lián)合全國(guó)多所高校開展,目前已培養(yǎng)300余名人工智能領(lǐng)域博士生。
賈寶雄介紹,團(tuán)隊(duì)目前約有10至20名博士生參與人形機(jī)器人研究,“很多學(xué)生既在研究院做算法,也會(huì)去企業(yè)和工程師一起解決真實(shí)問題。”
05.結(jié)語(yǔ):讓機(jī)器人真正走進(jìn)現(xiàn)實(shí)是下一步目標(biāo)
在賈寶雄看來,人形機(jī)器人接下來有兩個(gè)方向會(huì)同步推進(jìn)。
一方面,技術(shù)仍會(huì)繼續(xù)挑戰(zhàn)更高難度動(dòng)作,例如跑酷、復(fù)雜環(huán)境運(yùn)動(dòng)等。另一方面,機(jī)器人也需要逐漸進(jìn)入真實(shí)生活場(chǎng)景。
“未來機(jī)器人既可能像現(xiàn)在這樣參與比賽,也可能成為日常生活中的助手,”他說。
當(dāng)運(yùn)動(dòng)能力、感知能力和自主決策能力逐漸融合,人形機(jī)器人距離真正進(jìn)入現(xiàn)實(shí)世界,也許只差最后一次“破壁”。
本文來自微信公眾號(hào)“智東西”(ID:zhidxcom),作者:江宇,編輯:漠影,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




