欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

算力難補(bǔ)AI短板?谷歌新研究破解“隨機(jī)鸚鵡”爭(zhēng)議

4天前
破解隨機(jī)鸚鵡爭(zhēng)議

傳統(tǒng)AI模型在稀疏獎(jiǎng)勵(lì)場(chǎng)景中,常因缺乏明確激勵(lì)而難以形成層次化思考能力。谷歌團(tuán)隊(duì)通過(guò)引入元控制器調(diào)控模型內(nèi)部殘差流,讓智能體掌握了「跳躍式思考」模式。該研究揭示大模型內(nèi)部可自發(fā)形成類(lèi)人腦的層次化決策機(jī)制,為AI應(yīng)對(duì)多步驟復(fù)雜任務(wù)提供了全新訓(xùn)練范式。


AI智能體的核心瓶頸是算力不足嗎?


答案是否定的,獎(jiǎng)勵(lì)稀缺、任務(wù)鏈條過(guò)長(zhǎng)才是關(guān)鍵。


在稀疏獎(jiǎng)勵(lì)的長(zhǎng)序列任務(wù)里,傳統(tǒng)逐token探索如同蒙眼走迷宮:沒(méi)有路標(biāo)、缺乏提示,只有抵達(dá)終點(diǎn)才能獲得反饋。


這導(dǎo)致一個(gè)尷尬現(xiàn)狀:若想讓智能體完成復(fù)雜任務(wù),往往需外掛規(guī)劃器「輔助引導(dǎo)」。


谷歌這項(xiàng)研究則另辟蹊徑:在迷宮任務(wù)中要求智能體按順序踏過(guò)一系列彩色子目標(biāo),且僅在全程操作無(wú)誤時(shí)給予獎(jiǎng)勵(lì)——用嚴(yán)苛的稀疏獎(jiǎng)勵(lì)機(jī)制,倒逼智能體形成真正的層次化決策能力。


真正的突破在于:研究不再局限于優(yōu)化模型輸出,而是開(kāi)始干預(yù)模型內(nèi)部的「認(rèn)知過(guò)程」。


稀疏獎(jiǎng)勵(lì)下,智能體如何高效探索


傳統(tǒng)大模型依賴(lài)逐詞生成(token-by-token)的探索方式,面對(duì)需多步正確操作才能獲得獎(jiǎng)勵(lì)的復(fù)雜任務(wù),因獎(jiǎng)勵(lì)稀疏,智能體難以完成需層次化決策的長(zhǎng)序列任務(wù)。


這就像讓一個(gè)人蒙眼走迷宮,只有到達(dá)終點(diǎn)才能得到反饋,過(guò)程中無(wú)任何指引,無(wú)論嘗試多少次都難尋出口。


這使得當(dāng)前大模型智能體需搭配外部規(guī)劃器,才能完成復(fù)雜的多步驟任務(wù)。而谷歌這項(xiàng)研究的做法是,讓智能體在迷宮中按特定順序訪(fǎng)問(wèn)一系列彩色位置(子目標(biāo)),且僅在完全完成正確序列后給予獎(jiǎng)勵(lì)。



圖1:智能體需在迷宮中按順序走過(guò)不同顏色方塊


這種「組合式任務(wù)」要求智能體必須具備層次化解決問(wèn)題的能力,既需要低級(jí)運(yùn)動(dòng)控制技能,也需要高級(jí)時(shí)序規(guī)劃能力。


這如同人類(lèi)搬運(yùn)水杯的任務(wù),需執(zhí)行「拿起水杯→走到桌前→放下水杯」的連貫動(dòng)作。


「大腦中的大腦」:AI自主發(fā)現(xiàn)抽象動(dòng)作


谷歌團(tuán)隊(duì)如何解決稀疏獎(jiǎng)勵(lì)帶來(lái)的問(wèn)題?


答案是元控制器(Metacontroller)。


元控制器通過(guò)接收基模型的殘差流,可生成一系列簡(jiǎn)單的內(nèi)部控制器。


每個(gè)控制器對(duì)應(yīng)一個(gè)時(shí)序抽象動(dòng)作,每個(gè)時(shí)序抽象動(dòng)作對(duì)應(yīng)一個(gè)時(shí)間軸并附帶終止條件。通過(guò)按時(shí)間組合多個(gè)控制器,智能體能在新任務(wù)中實(shí)現(xiàn)高效探索。



圖2:元控制器引導(dǎo)預(yù)訓(xùn)練自回歸模型的殘差流激活


通過(guò)自監(jiān)督的下一步動(dòng)作預(yù)測(cè),元控制器可發(fā)現(xiàn)如何生成時(shí)間上稀疏變化的簡(jiǎn)單內(nèi)部控制器序列。


在分層結(jié)構(gòu)任務(wù)中,每個(gè)內(nèi)部控制器對(duì)應(yīng)一個(gè)時(shí)序抽象動(dòng)作,引導(dǎo)基礎(chǔ)自回歸模型完成一個(gè)有意義的初級(jí)目標(biāo)。



圖3:元控制器的架構(gòu)


借助強(qiáng)化學(xué)習(xí),研究者發(fā)現(xiàn)元控制器能通過(guò)變分推理自動(dòng)識(shí)別有意義的行為模塊,相當(dāng)于無(wú)監(jiān)督地發(fā)現(xiàn)抽象動(dòng)作的執(zhí)行方式。


使用元控制器后,訓(xùn)練機(jī)器人泡茶無(wú)需手工編碼拆解任務(wù)步驟。


此外,元控制器還具備動(dòng)態(tài)時(shí)間整合能力,可通過(guò)開(kāi)關(guān)單元控制抽象動(dòng)作的持續(xù)時(shí)間;同時(shí)能實(shí)現(xiàn)組合泛化,將學(xué)到的抽象動(dòng)作重新組合以解決新任務(wù)。



圖4:自監(jiān)督元控制器在預(yù)訓(xùn)練自回歸模型中發(fā)現(xiàn)時(shí)序抽象動(dòng)作


元控制器學(xué)習(xí)到的開(kāi)關(guān)模式能與真實(shí)子目標(biāo)切換完美對(duì)齊,盡管模型從未接收過(guò)子目標(biāo)標(biāo)簽。這種根據(jù)環(huán)境切換子目標(biāo)的方式是自然涌現(xiàn)的,表明模型內(nèi)部形成了類(lèi)似「選項(xiàng)」的分層結(jié)構(gòu)。


內(nèi)部強(qiáng)化學(xué)習(xí):效率提升數(shù)倍的新訓(xùn)練范式


該研究最令人驚訝的是,使用元控制器后的內(nèi)部強(qiáng)化學(xué)習(xí)與傳統(tǒng)強(qiáng)化學(xué)習(xí)不同——傳統(tǒng)方法在原始動(dòng)作空間微調(diào),而內(nèi)部強(qiáng)化學(xué)習(xí)在發(fā)現(xiàn)的抽象動(dòng)作空間中學(xué)習(xí),搜索空間大幅縮小。在需組合泛化的任務(wù)中,內(nèi)部強(qiáng)化學(xué)習(xí)的成功率顯著高于所有基線(xiàn)方法,包括此前最先進(jìn)的分層強(qiáng)化學(xué)習(xí)方法CompILE。



圖5:不同強(qiáng)化學(xué)習(xí)方式的成功率


智能體之所以能更大概率學(xué)會(huì)多步驟任務(wù),是因?yàn)樵刂破髯屇P碗[含地將長(zhǎng)序列任務(wù)分解為可重用的子程序(如「移動(dòng)到某色塊」),從而縮小搜索空間,緩解獎(jiǎng)勵(lì)稀疏問(wèn)題。


這相當(dāng)于通過(guò)動(dòng)作空間降維,將高維殘差流空間壓縮到低維抽象空間;再結(jié)合抽象時(shí)間尺度操作,縮短有效時(shí)間跨度,使抽象層面的獎(jiǎng)勵(lì)分配更高效。


「覺(jué)醒-睡眠」訓(xùn)練循環(huán)的實(shí)際應(yīng)用


2015年的論文[2]中,Jürgen Schmidhuber提出「覺(jué)醒-睡眠」訓(xùn)練循環(huán)的理論框架。


其核心思想是構(gòu)建迭代、自我改進(jìn)的循環(huán),交替執(zhí)行兩個(gè)階段,旨在打造能形成并利用時(shí)間抽象和計(jì)劃能力的自主智能系統(tǒng)。


睡眠階段,智能體回顧過(guò)往經(jīng)歷(觀察和行動(dòng)序列),通過(guò)自監(jiān)督學(xué)習(xí)訓(xùn)練內(nèi)部世界模型。


「覺(jué)醒」階段,智能體利用「睡眠」階段學(xué)到的世界模型內(nèi)部表征進(jìn)行強(qiáng)化學(xué)習(xí)和規(guī)劃,以發(fā)現(xiàn)新的有價(jià)值行為?!赣X(jué)醒」階段獲得的新經(jīng)驗(yàn)數(shù)據(jù)會(huì)加入經(jīng)驗(yàn)庫(kù),用于下一輪「睡眠」階段以改進(jìn)世界模型。


谷歌這項(xiàng)研究可視為「覺(jué)醒-睡眠」訓(xùn)練循環(huán)的具體實(shí)現(xiàn):自回歸基礎(chǔ)模型預(yù)訓(xùn)練對(duì)應(yīng)睡眠階段,模型通過(guò)預(yù)測(cè)下一個(gè)token(此處為下一動(dòng)作或觀察)的目標(biāo),在大量未標(biāo)注行為數(shù)據(jù)上訓(xùn)練。


這一過(guò)程正是自監(jiān)督學(xué)習(xí),模型學(xué)會(huì)推斷智能體的潛在目標(biāo)(如子目標(biāo)),并在殘差流激活中形成時(shí)間抽象的表征。


覺(jué)醒階段則是元控制器及其驅(qū)動(dòng)的內(nèi)部強(qiáng)化學(xué)習(xí),學(xué)習(xí)如何操控基礎(chǔ)模型(世界模型)的內(nèi)部殘差流激活,生成有意義、持續(xù)多個(gè)時(shí)間步的抽象動(dòng)作(如「前往藍(lán)色位置」)。


這相當(dāng)于在世界模型的內(nèi)部狀態(tài)空間中進(jìn)行規(guī)劃和控制。



圖6:發(fā)現(xiàn)時(shí)序抽象動(dòng)作時(shí),預(yù)訓(xùn)練自回歸模型凍結(jié)的重要性


如圖6所示,只有當(dāng)基礎(chǔ)自回歸模型在元控制器訓(xùn)練期間被凍結(jié)時(shí),才會(huì)涌現(xiàn)出與子目標(biāo)對(duì)齊的正確切換表征。


這一發(fā)現(xiàn)有力支持了「覺(jué)醒-睡眠」循環(huán)的分階段迭代思想:先通過(guò)預(yù)訓(xùn)練建立高質(zhì)量、穩(wěn)定的世界模型(基礎(chǔ)模型),再在此基礎(chǔ)上通過(guò)元控制器學(xué)習(xí)驅(qū)動(dòng)內(nèi)部強(qiáng)化學(xué)習(xí),從而掌握控制策略。


若兩者同時(shí)訓(xùn)練(共訓(xùn)練),模型會(huì)收斂到退化的解決方案,無(wú)法發(fā)現(xiàn)有意義的時(shí)間抽象。


這印證了分階段、迭代式訓(xùn)練的理論優(yōu)越性,符合Jürgen Schmidhuber提出的「先睡眠(構(gòu)建模型)、后覺(jué)醒(學(xué)習(xí)控制)」循環(huán)訓(xùn)練方案。


破解隨機(jī)鸚鵡爭(zhēng)議


大模型研究領(lǐng)域中,一直有批評(píng)者認(rèn)為自回歸模型無(wú)論參數(shù)量多大,都只是「隨機(jī)鸚鵡」,難以形成一致的時(shí)間抽象和規(guī)劃能力。


而該研究表明,預(yù)測(cè)下一個(gè)詞的訓(xùn)練方式只要結(jié)合元控制器,就能誘導(dǎo)出層次化的時(shí)間抽象,這與人類(lèi)解決問(wèn)題的方式高度相似。


在不依賴(lài)手動(dòng)獎(jiǎng)勵(lì)塑形的情況下解決多步驟任務(wù),是邁向能導(dǎo)航復(fù)雜、開(kāi)放式搜索空間的自主智能體的關(guān)鍵一步——在這些空間中,中間進(jìn)度的定義往往未知。


谷歌團(tuán)隊(duì)的這項(xiàng)研究標(biāo)志著AI研究從單純優(yōu)化模型輸出,轉(zhuǎn)向理解和操控模型內(nèi)部認(rèn)知過(guò)程,為開(kāi)發(fā)具有真正層次化推理能力的通用AI系統(tǒng)提供了堅(jiān)實(shí)實(shí)踐基礎(chǔ),說(shuō)明模仿人類(lèi)睡眠機(jī)制,才能實(shí)現(xiàn)復(fù)雜時(shí)間序列任務(wù)的高效學(xué)習(xí)。


與稀疏自編碼器(SAEs)等解釋性方法相比,元控制器具有顯著優(yōu)勢(shì):它直接通過(guò)殘差流干預(yù)降低預(yù)測(cè)誤差,具備內(nèi)部記憶,支持長(zhǎng)時(shí)間跨度干預(yù),且能發(fā)現(xiàn)可解釋、長(zhǎng)時(shí)間持續(xù)的干預(yù)策略。


這項(xiàng)技術(shù)的潛在應(yīng)用十分廣泛:


在機(jī)器人控制領(lǐng)域,可讓機(jī)器人執(zhí)行需多步協(xié)調(diào)的復(fù)雜任務(wù);在數(shù)學(xué)推理方面,能自主將復(fù)雜問(wèn)題分解為可管理的推理步驟;在科學(xué)發(fā)現(xiàn)領(lǐng)域,可讓智能體在稀疏獎(jiǎng)勵(lì)環(huán)境中進(jìn)行高效探索和假設(shè)檢驗(yàn)。


谷歌提出的內(nèi)部強(qiáng)化學(xué)習(xí)范式尤其適合需長(zhǎng)期規(guī)劃和組合推理的場(chǎng)景,為實(shí)現(xiàn)真正通用的智能系統(tǒng)提供了新路徑。


本文來(lái)自微信公眾號(hào)“新智元”,作者:新智元,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com