OpenClaw賦能機(jī)器人:人形機(jī)器人競(jìng)爭(zhēng)邏輯或?qū)⒏膶?/h1> 03-17 06:24 OpenClaw是否會(huì)顛覆打工人的工作方式尚未可知,但具身智能領(lǐng)域似乎正面臨變革。
近期網(wǎng)絡(luò)上流傳著不少相關(guān)視頻,一些不滿足于“賽博養(yǎng)蝦”的網(wǎng)友,為OpenClaw配備了攝像頭與機(jī)械臂。這一操作后,人們發(fā)現(xiàn)OpenClaw不僅能在電腦上完成任務(wù),在現(xiàn)實(shí)場(chǎng)景中同樣表現(xiàn)出色。
例如,有網(wǎng)友為OpenClaw搭配了電腦、機(jī)械臂和攝像頭,他們沒有針對(duì)該任務(wù)重新編寫程序,也未單獨(dú)訓(xùn)練模型,僅對(duì)OpenClaw下達(dá)指令:“把這些汽車零件分類。”
OpenClaw便順利完成了零件分揀工作。

這對(duì)具身智能領(lǐng)域的沖擊有多大呢?
這么說吧,就在不到一年前,這些能力在人形機(jī)器人公司還是值得專門召開發(fā)布會(huì),并花費(fèi)上百萬美元在全球宣傳的亮點(diǎn)。
但如今,同樣的能力被OpenClaw輕松實(shí)現(xiàn),而它甚至并非為具身智能專門設(shè)計(jì)的工具。
所以這件事聽起來有些不可思議。
那么,OpenClaw究竟為人形機(jī)器人帶來了什么?在OpenClaw如此強(qiáng)大的情況下,專門的具身大模型還有存在的意義嗎?機(jī)器人公司此前的工作是否白費(fèi)了?為何機(jī)器人公司多年的努力成果,OpenClaw能輕易達(dá)成?
以及當(dāng)熱潮退去后,哪些企業(yè)會(huì)暴露短板?
“養(yǎng)蝦”延伸至機(jī)器人領(lǐng)域
我仍記得,大約在去年(2025年)4月初,國內(nèi)一家頭部人形機(jī)器人公司在北京隆重舉辦了一場(chǎng)發(fā)布會(huì),主題是人形機(jī)器人開發(fā)平臺(tái)。
當(dāng)時(shí),該平臺(tái)的核心優(yōu)勢(shì)在于:僅通過語音指令,就能在工業(yè)場(chǎng)景中完成散亂零件的分揀,動(dòng)作流暢且錯(cuò)誤率低。
這個(gè)描述是不是很熟悉?它與如今OpenClaw能實(shí)現(xiàn)的功能幾乎一致。
不同之處在于,這家公司發(fā)布的平臺(tái)是專門針對(duì)機(jī)器人設(shè)計(jì)的,它拆分了數(shù)十個(gè)場(chǎng)景,訓(xùn)練智能體(Agent),再通過行為路徑規(guī)劃將其串聯(lián),其中包含了大量工作。
當(dāng)時(shí),該公司為這個(gè)平臺(tái)的宣傳語是:人形機(jī)器人從演示走向?qū)嵱?、從?shí)驗(yàn)室進(jìn)入工廠的關(guān)鍵一步。而現(xiàn)在,OpenClaw似乎也輕松實(shí)現(xiàn)了類似能力,但顯然,OpenClaw并未經(jīng)歷這些復(fù)雜過程。
這就好比你和朋友一起爬山,你精心準(zhǔn)備、提前出發(fā),耗費(fèi)大量時(shí)間,終于氣喘吁吁地到達(dá)山頂,卻發(fā)現(xiàn)朋友坐著直升機(jī)早已在那里等候。
具體而言,OpenClaw在更多場(chǎng)景中展現(xiàn)出了強(qiáng)大的泛化能力、決策能力和自我進(jìn)化能力。
比如在一個(gè)實(shí)驗(yàn)中,還有一段更貼近生活的測(cè)試。工作人員對(duì)機(jī)械臂說:“今天是元宵節(jié),給我做些甜米酒湯圓。”
機(jī)械臂先是停頓思考任務(wù),隨后開始執(zhí)行:將湯倒入鍋中,放入湯圓,等待水煮沸。
中途工作人員詢問:“能不能加點(diǎn)糖?”
機(jī)械臂反問:“黃糖還是桂花糖?”
得到“黃糖”的回答后,它便將糖倒入鍋中。
此外還有各類實(shí)驗(yàn),比如有開發(fā)者將OpenClaw接入工業(yè)機(jī)械臂,使其根據(jù)自然語言指令完成抓取或搬運(yùn)任務(wù),系統(tǒng)甚至?xí)詣?dòng)生成控制機(jī)械臂的Python腳本。
除了機(jī)械臂,四足機(jī)器人也很快出現(xiàn)在各種“養(yǎng)蝦”實(shí)驗(yàn)中。
在Reddit和X平臺(tái)流傳的一些視頻里,有開發(fā)者將OpenClaw接入機(jī)器狗,讓它在環(huán)境中自主巡邏。
過去,這類機(jī)器人通常需要遙控操作,或者按照預(yù)先設(shè)定的路線行動(dòng)。但在這些實(shí)驗(yàn)中,沒有操控,也沒有提前規(guī)劃的路線,機(jī)器狗根據(jù)攝像頭捕捉到的環(huán)境,自行判斷、規(guī)劃,比如繞開障礙物,或在遇到新情況時(shí)重新規(guī)劃路徑。

而當(dāng)這些實(shí)驗(yàn)應(yīng)用到人形機(jī)器人上時(shí),情況變得更有趣了。
比如在一個(gè)開源社區(qū)中,有人發(fā)布了一套適用于OpenClaw的Unitree-robot技能。有了這個(gè)集成,開發(fā)者可以直接通過即時(shí)通訊軟件控制宇樹機(jī)器人,比如G1,甚至包括更大的H1,以及四足機(jī)器人GO1和GO2。
整個(gè)過程比想象中簡(jiǎn)單。開發(fā)者無需打開復(fù)雜的圖形界面,也不用手動(dòng)調(diào)用SDK,只需在聊天窗口發(fā)送一句話:
“前進(jìn)一米?!?/p>
“左轉(zhuǎn)45度?!?/p>
機(jī)器人就會(huì)執(zhí)行相應(yīng)動(dòng)作。
這種控制甚至是雙向的。OpenClaw可以從機(jī)器人搭載的立體相機(jī)中獲取環(huán)境圖像,再將截圖發(fā)回聊天窗口,讓開發(fā)者隨時(shí)查看現(xiàn)場(chǎng)情況。如果再接入路徑規(guī)劃模塊,系統(tǒng)還能自動(dòng)規(guī)劃路線、避開障礙物。

同樣,整個(gè)過程沒有預(yù)設(shè)腳本,也沒有提前規(guī)劃好的動(dòng)作路徑。
開發(fā)者只需給出目標(biāo),剩下的事情就交給AI,它會(huì)自行判斷、規(guī)劃。
OpenClaw能否顛覆人形機(jī)器人行業(yè)?
從各種演示視頻中,我們看到了OpenClaw結(jié)合其他大模型所展現(xiàn)出的驚人能力。
放在以前,這足以成為許多人形機(jī)器人公司最引以為傲的成果,如今卻變得尋常。
因此,人們不禁產(chǎn)生疑問:機(jī)器人行業(yè)多年來在數(shù)據(jù)采集、模型訓(xùn)練、系統(tǒng)開發(fā)上投入的努力,還有價(jià)值嗎?
答案是否定的。
這得從機(jī)器人的決策系統(tǒng)說起,除了本體,決策系統(tǒng)大致可分為四層,從上到下依次是:
決策層(大腦):理解目標(biāo)并拆解任務(wù);
感知/表征層:識(shí)別環(huán)境、目標(biāo)與空間狀態(tài);
行為組織層:將任務(wù)拆分為技能和動(dòng)作序列;
控制層(小腦):負(fù)責(zé)軌跡規(guī)劃、伺服控制、避障和安全執(zhí)行。

在這個(gè)框架下,OpenClaw主要負(fù)責(zé)前幾層能力的調(diào)用、編排與銜接。至于機(jī)器人最終如何動(dòng)作、動(dòng)作能否穩(wěn)定執(zhí)行,仍依賴底層控制系統(tǒng)、運(yùn)動(dòng)學(xué)求解和執(zhí)行鏈路。
所以,OpenClaw并非讓機(jī)器人突然學(xué)會(huì)運(yùn)動(dòng),它更像是一個(gè)上層調(diào)度系統(tǒng),將人的指令轉(zhuǎn)化為一連串可調(diào)用的能力。
這里真正值得關(guān)注的亮點(diǎn)有兩個(gè)。
其一,OpenClaw改變了機(jī)器人獲取這些能力的方式。
過去,很多能力并非無法實(shí)現(xiàn),而是往往需要為單一任務(wù)投入大量數(shù)據(jù)采集、專門訓(xùn)練和復(fù)雜的規(guī)則設(shè)計(jì)。
如今,OpenClaw可以直接借助已成熟的多模態(tài)模型、工具系統(tǒng)和模塊化執(zhí)行鏈路,將許多原本需要單獨(dú)開發(fā)、訓(xùn)練的能力,轉(zhuǎn)化為可直接調(diào)用和快速組合的能力。
結(jié)果就是,同樣的抓取、查找或巡檢任務(wù),開發(fā)效率更高,試錯(cuò)周期更短,整體成本也更低。
其二,OpenClaw讓機(jī)器人開始具備一種過去很少真正實(shí)現(xiàn)的能力:對(duì)現(xiàn)實(shí)世界的持續(xù)記憶。
傳統(tǒng)機(jī)器人更多是“即時(shí)性”工作。它看到什么就做出相應(yīng)反應(yīng),任務(wù)結(jié)束后,對(duì)環(huán)境的理解大多停留在那一刻。很多系統(tǒng)雖能繪制地圖、定位和保存任務(wù)狀態(tài),但通常不會(huì)將“地點(diǎn)、物體、事件和時(shí)間”持續(xù)組織成可隨時(shí)調(diào)用的統(tǒng)一記憶結(jié)構(gòu)。
現(xiàn)在,OpenClaw開始嘗試將機(jī)器人感知到的重要對(duì)象、地點(diǎn)、事件和時(shí)間組織成可檢索的時(shí)空語義記憶。
這意味著,機(jī)器人不再只是執(zhí)行命令,而是在持續(xù)積累上下文信息。
比如一個(gè)人何時(shí)進(jìn)入房間、一個(gè)物體被放在何處、一段行為發(fā)生的時(shí)間點(diǎn)等,都可能成為后續(xù)搜索、判斷和行動(dòng)的依據(jù)。
當(dāng)然,這并不意味著它已擁有像人類一樣完整的世界認(rèn)知,但至少說明它開始具備面向現(xiàn)實(shí)世界的結(jié)構(gòu)化記憶能力。
這件事的意義在于,機(jī)器人能力的邊界正從“完成單次任務(wù)”向“持續(xù)理解環(huán)境”拓展。(在同一或相似環(huán)境中,持續(xù)的上下文信息會(huì)提升任務(wù)連續(xù)性和局部穩(wěn)定性,但這并不等同于系統(tǒng)獲得了廣義泛化能力。)
OpenClaw能做到這些并非偶然,背后有兩個(gè)重要原因。
第一個(gè)原因是,近年來機(jī)器人底層架構(gòu)發(fā)生了變化。
過去,很多機(jī)器人系統(tǒng)更像封閉的“煙囪”:感知、規(guī)劃、控制各自獨(dú)立,連接復(fù)雜,開發(fā)門檻高。很多能力雖已存在,卻難以靈活調(diào)用。
如今,機(jī)器人系統(tǒng)正變得越來越模塊化、標(biāo)準(zhǔn)化。相機(jī)、機(jī)械臂、抓取模塊、路徑規(guī)劃、底層控制接口等,都逐漸成為可插拔、可組合的能力單元。
OpenClaw之所以看似強(qiáng)大,并非因?yàn)樗鼞{空創(chuàng)造了底層機(jī)器人能力,而是因?yàn)樗苷驹谥饾u標(biāo)準(zhǔn)化的執(zhí)行棧之上,重新組織這些能力。
第二個(gè)原因是,多模態(tài)大模型正在快速整合原本分散的能力。
過去,人形機(jī)器人完成一個(gè)任務(wù),往往要單獨(dú)解決文字理解、語音識(shí)別、圖像識(shí)別、視頻理解、目標(biāo)檢測(cè)、空間判斷、任務(wù)拆解等多個(gè)問題,且常由不同模塊分別處理。
現(xiàn)在,多模態(tài)大模型已能同時(shí)處理文字、圖像、語音、視頻等多種信息,并將這些信息納入同一上下文進(jìn)行統(tǒng)一理解。這意味著,機(jī)器人過去那些需要單獨(dú)訓(xùn)練、接入的感知和理解能力,正被更通用的基礎(chǔ)模型逐步整合。
這顯著降低了機(jī)器人上層智能的開發(fā)門檻。OpenClaw的意義就在于,它不是重新發(fā)明這些能力,而是將這些已增強(qiáng)的通用能力更高效地接入機(jī)器人系統(tǒng)。
具身大模型是否仍有價(jià)值?
談到這里,自然會(huì)引出一個(gè)更關(guān)鍵的問題:既然基礎(chǔ)模型越來越強(qiáng),單獨(dú)研發(fā)具身智能大模型還有意義嗎?
畢竟在此之前,很多人形機(jī)器人公司都曾高調(diào)宣布自研具身大模型,并將其視為公司最重要的戰(zhàn)略核心,仿佛誰掌握了具身模型,誰就掌控了機(jī)器人的未來。
但現(xiàn)在看來,通用基礎(chǔ)模型正迅速完善理解、感知和任務(wù)編排能力,機(jī)器人公司多年構(gòu)建的部分上層能力,正被更大的基礎(chǔ)模型體系快速通用化。
答案是:有,而且依然重要。
原因在于,基礎(chǔ)模型的強(qiáng)化主要改變了機(jī)器人“理解世界”的能力;而具身模型真正決定的,是機(jī)器人“如何在物理世界中執(zhí)行動(dòng)作”的能力。
理解一句話、識(shí)別一個(gè)目標(biāo)、拆解一個(gè)任務(wù),這些確實(shí)越來越像通用能力。但機(jī)器人最難的部分,從來不是聽懂、看懂,而是進(jìn)入現(xiàn)實(shí)世界后,動(dòng)作是否可行、抓取角度是否正確、軌跡是否穩(wěn)定、接觸力是否可控、目標(biāo)被遮擋后能否繼續(xù)、抓取失敗后能否恢復(fù),以及換場(chǎng)景、換物體、換機(jī)器后能否成功。
這些問題并非僅靠更強(qiáng)的“理解能力”就能自動(dòng)解決。
具身智能大模型的價(jià)值,不在于包攬所有任務(wù),而在于沉淀大量與動(dòng)作、操作、交互相關(guān)的經(jīng)驗(yàn),讓機(jī)器人不僅能做出演示,更能形成穩(wěn)定、可復(fù)用、可泛化的能力。
換句話說,通用模型正在覆蓋“理解層”;而具身模型堅(jiān)守的,仍是“動(dòng)作層”和“物理落地層”。
所以,具身模型并非失去意義,而是其角色正在轉(zhuǎn)變:過去它像是想包辦一切的“全棧大腦”,現(xiàn)在更像是機(jī)器人系統(tǒng)中決定能力上限的關(guān)鍵一層。
最后,回到最初的問題:OpenClaw究竟給人形機(jī)器人行業(yè)帶來了什么?
答案是,它讓整個(gè)行業(yè)更早接受了一個(gè)事實(shí):人形機(jī)器人的上層任務(wù)智能正快速通用化。
過去,很多公司最稀缺的能力是將理解、感知、規(guī)劃和調(diào)用整合成一個(gè)可運(yùn)行的系統(tǒng);但現(xiàn)在,隨著多模態(tài)基礎(chǔ)模型和智能體(Agent)框架的成熟,這部分門檻正迅速降低。
做出一個(gè)像樣的演示會(huì)越來越容易,這也意味著機(jī)器人行業(yè)正進(jìn)入深水區(qū)。
未來的競(jìng)爭(zhēng),不再是誰先做出“能聽懂指令”的演示,而是誰能讓動(dòng)作更穩(wěn)定、成功率更高,將系統(tǒng)打造成低延遲、可復(fù)現(xiàn)、可量產(chǎn)、可安全部署的產(chǎn)品。真正決定勝負(fù)的,是更底層的專業(yè)能力:控制、數(shù)據(jù)、魯棒性、工程化和量產(chǎn)能力。
也就是說,OpenClaw降低了做演示的門檻,卻沒有降低做成產(chǎn)品的難度。
而這正是它對(duì)行業(yè)最大的沖擊:那些仍停留在表面、靠手動(dòng)制作演示講故事的公司,競(jìng)爭(zhēng)力會(huì)迅速被削弱;當(dāng)熱潮退去,就能看清誰在“裸泳”。
本文來自微信公眾號(hào)“有界UnKnown”,作者:錢江,編輯:山茶,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com
近期網(wǎng)絡(luò)上流傳著不少相關(guān)視頻,一些不滿足于“賽博養(yǎng)蝦”的網(wǎng)友,為OpenClaw配備了攝像頭與機(jī)械臂。這一操作后,人們發(fā)現(xiàn)OpenClaw不僅能在電腦上完成任務(wù),在現(xiàn)實(shí)場(chǎng)景中同樣表現(xiàn)出色。
例如,有網(wǎng)友為OpenClaw搭配了電腦、機(jī)械臂和攝像頭,他們沒有針對(duì)該任務(wù)重新編寫程序,也未單獨(dú)訓(xùn)練模型,僅對(duì)OpenClaw下達(dá)指令:“把這些汽車零件分類。”
OpenClaw便順利完成了零件分揀工作。

這對(duì)具身智能領(lǐng)域的沖擊有多大呢?
這么說吧,就在不到一年前,這些能力在人形機(jī)器人公司還是值得專門召開發(fā)布會(huì),并花費(fèi)上百萬美元在全球宣傳的亮點(diǎn)。
但如今,同樣的能力被OpenClaw輕松實(shí)現(xiàn),而它甚至并非為具身智能專門設(shè)計(jì)的工具。
所以這件事聽起來有些不可思議。
那么,OpenClaw究竟為人形機(jī)器人帶來了什么?在OpenClaw如此強(qiáng)大的情況下,專門的具身大模型還有存在的意義嗎?機(jī)器人公司此前的工作是否白費(fèi)了?為何機(jī)器人公司多年的努力成果,OpenClaw能輕易達(dá)成?
以及當(dāng)熱潮退去后,哪些企業(yè)會(huì)暴露短板?
“養(yǎng)蝦”延伸至機(jī)器人領(lǐng)域
我仍記得,大約在去年(2025年)4月初,國內(nèi)一家頭部人形機(jī)器人公司在北京隆重舉辦了一場(chǎng)發(fā)布會(huì),主題是人形機(jī)器人開發(fā)平臺(tái)。
當(dāng)時(shí),該平臺(tái)的核心優(yōu)勢(shì)在于:僅通過語音指令,就能在工業(yè)場(chǎng)景中完成散亂零件的分揀,動(dòng)作流暢且錯(cuò)誤率低。
這個(gè)描述是不是很熟悉?它與如今OpenClaw能實(shí)現(xiàn)的功能幾乎一致。
不同之處在于,這家公司發(fā)布的平臺(tái)是專門針對(duì)機(jī)器人設(shè)計(jì)的,它拆分了數(shù)十個(gè)場(chǎng)景,訓(xùn)練智能體(Agent),再通過行為路徑規(guī)劃將其串聯(lián),其中包含了大量工作。
當(dāng)時(shí),該公司為這個(gè)平臺(tái)的宣傳語是:人形機(jī)器人從演示走向?qū)嵱?、從?shí)驗(yàn)室進(jìn)入工廠的關(guān)鍵一步。而現(xiàn)在,OpenClaw似乎也輕松實(shí)現(xiàn)了類似能力,但顯然,OpenClaw并未經(jīng)歷這些復(fù)雜過程。
這就好比你和朋友一起爬山,你精心準(zhǔn)備、提前出發(fā),耗費(fèi)大量時(shí)間,終于氣喘吁吁地到達(dá)山頂,卻發(fā)現(xiàn)朋友坐著直升機(jī)早已在那里等候。
具體而言,OpenClaw在更多場(chǎng)景中展現(xiàn)出了強(qiáng)大的泛化能力、決策能力和自我進(jìn)化能力。
比如在一個(gè)實(shí)驗(yàn)中,還有一段更貼近生活的測(cè)試。工作人員對(duì)機(jī)械臂說:“今天是元宵節(jié),給我做些甜米酒湯圓。”
機(jī)械臂先是停頓思考任務(wù),隨后開始執(zhí)行:將湯倒入鍋中,放入湯圓,等待水煮沸。
中途工作人員詢問:“能不能加點(diǎn)糖?”
機(jī)械臂反問:“黃糖還是桂花糖?”
得到“黃糖”的回答后,它便將糖倒入鍋中。
此外還有各類實(shí)驗(yàn),比如有開發(fā)者將OpenClaw接入工業(yè)機(jī)械臂,使其根據(jù)自然語言指令完成抓取或搬運(yùn)任務(wù),系統(tǒng)甚至?xí)詣?dòng)生成控制機(jī)械臂的Python腳本。
除了機(jī)械臂,四足機(jī)器人也很快出現(xiàn)在各種“養(yǎng)蝦”實(shí)驗(yàn)中。
在Reddit和X平臺(tái)流傳的一些視頻里,有開發(fā)者將OpenClaw接入機(jī)器狗,讓它在環(huán)境中自主巡邏。
過去,這類機(jī)器人通常需要遙控操作,或者按照預(yù)先設(shè)定的路線行動(dòng)。但在這些實(shí)驗(yàn)中,沒有操控,也沒有提前規(guī)劃的路線,機(jī)器狗根據(jù)攝像頭捕捉到的環(huán)境,自行判斷、規(guī)劃,比如繞開障礙物,或在遇到新情況時(shí)重新規(guī)劃路徑。

而當(dāng)這些實(shí)驗(yàn)應(yīng)用到人形機(jī)器人上時(shí),情況變得更有趣了。
比如在一個(gè)開源社區(qū)中,有人發(fā)布了一套適用于OpenClaw的Unitree-robot技能。有了這個(gè)集成,開發(fā)者可以直接通過即時(shí)通訊軟件控制宇樹機(jī)器人,比如G1,甚至包括更大的H1,以及四足機(jī)器人GO1和GO2。
整個(gè)過程比想象中簡(jiǎn)單。開發(fā)者無需打開復(fù)雜的圖形界面,也不用手動(dòng)調(diào)用SDK,只需在聊天窗口發(fā)送一句話:
“前進(jìn)一米?!?/p>
“左轉(zhuǎn)45度?!?/p>
機(jī)器人就會(huì)執(zhí)行相應(yīng)動(dòng)作。
這種控制甚至是雙向的。OpenClaw可以從機(jī)器人搭載的立體相機(jī)中獲取環(huán)境圖像,再將截圖發(fā)回聊天窗口,讓開發(fā)者隨時(shí)查看現(xiàn)場(chǎng)情況。如果再接入路徑規(guī)劃模塊,系統(tǒng)還能自動(dòng)規(guī)劃路線、避開障礙物。

同樣,整個(gè)過程沒有預(yù)設(shè)腳本,也沒有提前規(guī)劃好的動(dòng)作路徑。
開發(fā)者只需給出目標(biāo),剩下的事情就交給AI,它會(huì)自行判斷、規(guī)劃。
OpenClaw能否顛覆人形機(jī)器人行業(yè)?
從各種演示視頻中,我們看到了OpenClaw結(jié)合其他大模型所展現(xiàn)出的驚人能力。
放在以前,這足以成為許多人形機(jī)器人公司最引以為傲的成果,如今卻變得尋常。
因此,人們不禁產(chǎn)生疑問:機(jī)器人行業(yè)多年來在數(shù)據(jù)采集、模型訓(xùn)練、系統(tǒng)開發(fā)上投入的努力,還有價(jià)值嗎?
答案是否定的。
這得從機(jī)器人的決策系統(tǒng)說起,除了本體,決策系統(tǒng)大致可分為四層,從上到下依次是:
決策層(大腦):理解目標(biāo)并拆解任務(wù);
感知/表征層:識(shí)別環(huán)境、目標(biāo)與空間狀態(tài);
行為組織層:將任務(wù)拆分為技能和動(dòng)作序列;
控制層(小腦):負(fù)責(zé)軌跡規(guī)劃、伺服控制、避障和安全執(zhí)行。

在這個(gè)框架下,OpenClaw主要負(fù)責(zé)前幾層能力的調(diào)用、編排與銜接。至于機(jī)器人最終如何動(dòng)作、動(dòng)作能否穩(wěn)定執(zhí)行,仍依賴底層控制系統(tǒng)、運(yùn)動(dòng)學(xué)求解和執(zhí)行鏈路。
所以,OpenClaw并非讓機(jī)器人突然學(xué)會(huì)運(yùn)動(dòng),它更像是一個(gè)上層調(diào)度系統(tǒng),將人的指令轉(zhuǎn)化為一連串可調(diào)用的能力。
這里真正值得關(guān)注的亮點(diǎn)有兩個(gè)。
其一,OpenClaw改變了機(jī)器人獲取這些能力的方式。
過去,很多能力并非無法實(shí)現(xiàn),而是往往需要為單一任務(wù)投入大量數(shù)據(jù)采集、專門訓(xùn)練和復(fù)雜的規(guī)則設(shè)計(jì)。
如今,OpenClaw可以直接借助已成熟的多模態(tài)模型、工具系統(tǒng)和模塊化執(zhí)行鏈路,將許多原本需要單獨(dú)開發(fā)、訓(xùn)練的能力,轉(zhuǎn)化為可直接調(diào)用和快速組合的能力。
結(jié)果就是,同樣的抓取、查找或巡檢任務(wù),開發(fā)效率更高,試錯(cuò)周期更短,整體成本也更低。
其二,OpenClaw讓機(jī)器人開始具備一種過去很少真正實(shí)現(xiàn)的能力:對(duì)現(xiàn)實(shí)世界的持續(xù)記憶。
傳統(tǒng)機(jī)器人更多是“即時(shí)性”工作。它看到什么就做出相應(yīng)反應(yīng),任務(wù)結(jié)束后,對(duì)環(huán)境的理解大多停留在那一刻。很多系統(tǒng)雖能繪制地圖、定位和保存任務(wù)狀態(tài),但通常不會(huì)將“地點(diǎn)、物體、事件和時(shí)間”持續(xù)組織成可隨時(shí)調(diào)用的統(tǒng)一記憶結(jié)構(gòu)。
現(xiàn)在,OpenClaw開始嘗試將機(jī)器人感知到的重要對(duì)象、地點(diǎn)、事件和時(shí)間組織成可檢索的時(shí)空語義記憶。
這意味著,機(jī)器人不再只是執(zhí)行命令,而是在持續(xù)積累上下文信息。
比如一個(gè)人何時(shí)進(jìn)入房間、一個(gè)物體被放在何處、一段行為發(fā)生的時(shí)間點(diǎn)等,都可能成為后續(xù)搜索、判斷和行動(dòng)的依據(jù)。
當(dāng)然,這并不意味著它已擁有像人類一樣完整的世界認(rèn)知,但至少說明它開始具備面向現(xiàn)實(shí)世界的結(jié)構(gòu)化記憶能力。
這件事的意義在于,機(jī)器人能力的邊界正從“完成單次任務(wù)”向“持續(xù)理解環(huán)境”拓展。(在同一或相似環(huán)境中,持續(xù)的上下文信息會(huì)提升任務(wù)連續(xù)性和局部穩(wěn)定性,但這并不等同于系統(tǒng)獲得了廣義泛化能力。)
OpenClaw能做到這些并非偶然,背后有兩個(gè)重要原因。
第一個(gè)原因是,近年來機(jī)器人底層架構(gòu)發(fā)生了變化。
過去,很多機(jī)器人系統(tǒng)更像封閉的“煙囪”:感知、規(guī)劃、控制各自獨(dú)立,連接復(fù)雜,開發(fā)門檻高。很多能力雖已存在,卻難以靈活調(diào)用。
如今,機(jī)器人系統(tǒng)正變得越來越模塊化、標(biāo)準(zhǔn)化。相機(jī)、機(jī)械臂、抓取模塊、路徑規(guī)劃、底層控制接口等,都逐漸成為可插拔、可組合的能力單元。
OpenClaw之所以看似強(qiáng)大,并非因?yàn)樗鼞{空創(chuàng)造了底層機(jī)器人能力,而是因?yàn)樗苷驹谥饾u標(biāo)準(zhǔn)化的執(zhí)行棧之上,重新組織這些能力。
第二個(gè)原因是,多模態(tài)大模型正在快速整合原本分散的能力。
過去,人形機(jī)器人完成一個(gè)任務(wù),往往要單獨(dú)解決文字理解、語音識(shí)別、圖像識(shí)別、視頻理解、目標(biāo)檢測(cè)、空間判斷、任務(wù)拆解等多個(gè)問題,且常由不同模塊分別處理。
現(xiàn)在,多模態(tài)大模型已能同時(shí)處理文字、圖像、語音、視頻等多種信息,并將這些信息納入同一上下文進(jìn)行統(tǒng)一理解。這意味著,機(jī)器人過去那些需要單獨(dú)訓(xùn)練、接入的感知和理解能力,正被更通用的基礎(chǔ)模型逐步整合。
這顯著降低了機(jī)器人上層智能的開發(fā)門檻。OpenClaw的意義就在于,它不是重新發(fā)明這些能力,而是將這些已增強(qiáng)的通用能力更高效地接入機(jī)器人系統(tǒng)。
具身大模型是否仍有價(jià)值?
談到這里,自然會(huì)引出一個(gè)更關(guān)鍵的問題:既然基礎(chǔ)模型越來越強(qiáng),單獨(dú)研發(fā)具身智能大模型還有意義嗎?
畢竟在此之前,很多人形機(jī)器人公司都曾高調(diào)宣布自研具身大模型,并將其視為公司最重要的戰(zhàn)略核心,仿佛誰掌握了具身模型,誰就掌控了機(jī)器人的未來。
但現(xiàn)在看來,通用基礎(chǔ)模型正迅速完善理解、感知和任務(wù)編排能力,機(jī)器人公司多年構(gòu)建的部分上層能力,正被更大的基礎(chǔ)模型體系快速通用化。
答案是:有,而且依然重要。
原因在于,基礎(chǔ)模型的強(qiáng)化主要改變了機(jī)器人“理解世界”的能力;而具身模型真正決定的,是機(jī)器人“如何在物理世界中執(zhí)行動(dòng)作”的能力。
理解一句話、識(shí)別一個(gè)目標(biāo)、拆解一個(gè)任務(wù),這些確實(shí)越來越像通用能力。但機(jī)器人最難的部分,從來不是聽懂、看懂,而是進(jìn)入現(xiàn)實(shí)世界后,動(dòng)作是否可行、抓取角度是否正確、軌跡是否穩(wěn)定、接觸力是否可控、目標(biāo)被遮擋后能否繼續(xù)、抓取失敗后能否恢復(fù),以及換場(chǎng)景、換物體、換機(jī)器后能否成功。
這些問題并非僅靠更強(qiáng)的“理解能力”就能自動(dòng)解決。
具身智能大模型的價(jià)值,不在于包攬所有任務(wù),而在于沉淀大量與動(dòng)作、操作、交互相關(guān)的經(jīng)驗(yàn),讓機(jī)器人不僅能做出演示,更能形成穩(wěn)定、可復(fù)用、可泛化的能力。
換句話說,通用模型正在覆蓋“理解層”;而具身模型堅(jiān)守的,仍是“動(dòng)作層”和“物理落地層”。
所以,具身模型并非失去意義,而是其角色正在轉(zhuǎn)變:過去它像是想包辦一切的“全棧大腦”,現(xiàn)在更像是機(jī)器人系統(tǒng)中決定能力上限的關(guān)鍵一層。
最后,回到最初的問題:OpenClaw究竟給人形機(jī)器人行業(yè)帶來了什么?
答案是,它讓整個(gè)行業(yè)更早接受了一個(gè)事實(shí):人形機(jī)器人的上層任務(wù)智能正快速通用化。
過去,很多公司最稀缺的能力是將理解、感知、規(guī)劃和調(diào)用整合成一個(gè)可運(yùn)行的系統(tǒng);但現(xiàn)在,隨著多模態(tài)基礎(chǔ)模型和智能體(Agent)框架的成熟,這部分門檻正迅速降低。
做出一個(gè)像樣的演示會(huì)越來越容易,這也意味著機(jī)器人行業(yè)正進(jìn)入深水區(qū)。
未來的競(jìng)爭(zhēng),不再是誰先做出“能聽懂指令”的演示,而是誰能讓動(dòng)作更穩(wěn)定、成功率更高,將系統(tǒng)打造成低延遲、可復(fù)現(xiàn)、可量產(chǎn)、可安全部署的產(chǎn)品。真正決定勝負(fù)的,是更底層的專業(yè)能力:控制、數(shù)據(jù)、魯棒性、工程化和量產(chǎn)能力。
也就是說,OpenClaw降低了做演示的門檻,卻沒有降低做成產(chǎn)品的難度。
而這正是它對(duì)行業(yè)最大的沖擊:那些仍停留在表面、靠手動(dòng)制作演示講故事的公司,競(jìng)爭(zhēng)力會(huì)迅速被削弱;當(dāng)熱潮退去,就能看清誰在“裸泳”。
本文來自微信公眾號(hào)“有界UnKnown”,作者:錢江,編輯:山茶,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



