欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<ruby id="q4xsq"></ruby>

<rt id="q4xsq"></rt>

算力難補(bǔ)AI短板？谷歌新研究破解“隨機(jī)鸚鵡”爭(zhēng)議

02-28 07:30

破解隨機(jī)鸚鵡爭(zhēng)議

傳統(tǒng)AI模型在稀疏獎(jiǎng)勵(lì)場(chǎng)景中，常因缺乏明確激勵(lì)而難以形成層次化思考能力。谷歌團(tuán)隊(duì)通過(guò)引入元控制器調(diào)控模型內(nèi)部殘差流，讓智能體掌握了「跳躍式思考」模式。該研究揭示大模型內(nèi)部可自發(fā)形成類人腦的層次化決策機(jī)制，為AI應(yīng)對(duì)多步驟復(fù)雜任務(wù)提供了全新訓(xùn)練范式。

AI智能體的核心瓶頸是算力不足嗎？

答案是否定的，獎(jiǎng)勵(lì)稀缺、任務(wù)鏈條過(guò)長(zhǎng)才是關(guān)鍵。

在稀疏獎(jiǎng)勵(lì)的長(zhǎng)序列任務(wù)里，傳統(tǒng)逐token探索如同蒙眼走迷宮：沒(méi)有路標(biāo)、缺乏提示，只有抵達(dá)終點(diǎn)才能獲得反饋。

這導(dǎo)致一個(gè)尷尬現(xiàn)狀：若想讓智能體完成復(fù)雜任務(wù)，往往需外掛規(guī)劃器「輔助引導(dǎo)」。

谷歌這項(xiàng)研究則另辟蹊徑：在迷宮任務(wù)中要求智能體按順序踏過(guò)一系列彩色子目標(biāo)，且僅在全程操作無(wú)誤時(shí)給予獎(jiǎng)勵(lì)——用嚴(yán)苛的稀疏獎(jiǎng)勵(lì)機(jī)制，倒逼智能體形成真正的層次化決策能力。

真正的突破在于：研究不再局限于優(yōu)化模型輸出，而是開(kāi)始干預(yù)模型內(nèi)部的「認(rèn)知過(guò)程」。

稀疏獎(jiǎng)勵(lì)下，智能體如何高效探索

傳統(tǒng)大模型依賴逐詞生成（token-by-token）的探索方式，面對(duì)需多步正確操作才能獲得獎(jiǎng)勵(lì)的復(fù)雜任務(wù)，因獎(jiǎng)勵(lì)稀疏，智能體難以完成需層次化決策的長(zhǎng)序列任務(wù)。

這就像讓一個(gè)人蒙眼走迷宮，只有到達(dá)終點(diǎn)才能得到反饋，過(guò)程中無(wú)任何指引，無(wú)論嘗試多少次都難尋出口。

這使得當(dāng)前大模型智能體需搭配外部規(guī)劃器，才能完成復(fù)雜的多步驟任務(wù)。而谷歌這項(xiàng)研究的做法是，讓智能體在迷宮中按特定順序訪問(wèn)一系列彩色位置（子目標(biāo)），且僅在完全完成正確序列后給予獎(jiǎng)勵(lì)。

圖1：智能體需在迷宮中按順序走過(guò)不同顏色方塊

這種「組合式任務(wù)」要求智能體必須具備層次化解決問(wèn)題的能力，既需要低級(jí)運(yùn)動(dòng)控制技能，也需要高級(jí)時(shí)序規(guī)劃能力。

這如同人類搬運(yùn)水杯的任務(wù)，需執(zhí)行「拿起水杯→走到桌前→放下水杯」的連貫動(dòng)作。

「大腦中的大腦」：AI自主發(fā)現(xiàn)抽象動(dòng)作

谷歌團(tuán)隊(duì)如何解決稀疏獎(jiǎng)勵(lì)帶來(lái)的問(wèn)題？

答案是元控制器（Metacontroller）。

元控制器通過(guò)接收基模型的殘差流，可生成一系列簡(jiǎn)單的內(nèi)部控制器。

每個(gè)控制器對(duì)應(yīng)一個(gè)時(shí)序抽象動(dòng)作，每個(gè)時(shí)序抽象動(dòng)作對(duì)應(yīng)一個(gè)時(shí)間軸并附帶終止條件。通過(guò)按時(shí)間組合多個(gè)控制器，智能體能在新任務(wù)中實(shí)現(xiàn)高效探索。

圖2：元控制器引導(dǎo)預(yù)訓(xùn)練自回歸模型的殘差流激活

通過(guò)自監(jiān)督的下一步動(dòng)作預(yù)測(cè)，元控制器可發(fā)現(xiàn)如何生成時(shí)間上稀疏變化的簡(jiǎn)單內(nèi)部控制器序列。

在分層結(jié)構(gòu)任務(wù)中，每個(gè)內(nèi)部控制器對(duì)應(yīng)一個(gè)時(shí)序抽象動(dòng)作，引導(dǎo)基礎(chǔ)自回歸模型完成一個(gè)有意義的初級(jí)目標(biāo)。

圖3：元控制器的架構(gòu)

借助強(qiáng)化學(xué)習(xí)，研究者發(fā)現(xiàn)元控制器能通過(guò)變分推理自動(dòng)識(shí)別有意義的行為模塊，相當(dāng)于無(wú)監(jiān)督地發(fā)現(xiàn)抽象動(dòng)作的執(zhí)行方式。

使用元控制器后，訓(xùn)練機(jī)器人泡茶無(wú)需手工編碼拆解任務(wù)步驟。

此外，元控制器還具備動(dòng)態(tài)時(shí)間整合能力，可通過(guò)開(kāi)關(guān)單元控制抽象動(dòng)作的持續(xù)時(shí)間；同時(shí)能實(shí)現(xiàn)組合泛化，將學(xué)到的抽象動(dòng)作重新組合以解決新任務(wù)。

圖4：自監(jiān)督元控制器在預(yù)訓(xùn)練自回歸模型中發(fā)現(xiàn)時(shí)序抽象動(dòng)作

元控制器學(xué)習(xí)到的開(kāi)關(guān)模式能與真實(shí)子目標(biāo)切換完美對(duì)齊，盡管模型從未接收過(guò)子目標(biāo)標(biāo)簽。這種根據(jù)環(huán)境切換子目標(biāo)的方式是自然涌現(xiàn)的，表明模型內(nèi)部形成了類似「選項(xiàng)」的分層結(jié)構(gòu)。

內(nèi)部強(qiáng)化學(xué)習(xí)：效率提升數(shù)倍的新訓(xùn)練范式

該研究最令人驚訝的是，使用元控制器后的內(nèi)部強(qiáng)化學(xué)習(xí)與傳統(tǒng)強(qiáng)化學(xué)習(xí)不同——傳統(tǒng)方法在原始動(dòng)作空間微調(diào)，而內(nèi)部強(qiáng)化學(xué)習(xí)在發(fā)現(xiàn)的抽象動(dòng)作空間中學(xué)習(xí)，搜索空間大幅縮小。在需組合泛化的任務(wù)中，內(nèi)部強(qiáng)化學(xué)習(xí)的成功率顯著高于所有基線方法，包括此前最先進(jìn)的分層強(qiáng)化學(xué)習(xí)方法CompILE。

圖5：不同強(qiáng)化學(xué)習(xí)方式的成功率

智能體之所以能更大概率學(xué)會(huì)多步驟任務(wù)，是因?yàn)樵刂破髯屇Ｐ碗[含地將長(zhǎng)序列任務(wù)分解為可重用的子程序（如「移動(dòng)到某色塊」），從而縮小搜索空間，緩解獎(jiǎng)勵(lì)稀疏問(wèn)題。

這相當(dāng)于通過(guò)動(dòng)作空間降維，將高維殘差流空間壓縮到低維抽象空間；再結(jié)合抽象時(shí)間尺度操作，縮短有效時(shí)間跨度，使抽象層面的獎(jiǎng)勵(lì)分配更高效。

「覺(jué)醒-睡眠」訓(xùn)練循環(huán)的實(shí)際應(yīng)用

2015年的論文[2]中，Jürgen Schmidhuber提出「覺(jué)醒-睡眠」訓(xùn)練循環(huán)的理論框架。

其核心思想是構(gòu)建迭代、自我改進(jìn)的循環(huán)，交替執(zhí)行兩個(gè)階段，旨在打造能形成并利用時(shí)間抽象和計(jì)劃能力的自主智能系統(tǒng)。

睡眠階段，智能體回顧過(guò)往經(jīng)歷（觀察和行動(dòng)序列），通過(guò)自監(jiān)督學(xué)習(xí)訓(xùn)練內(nèi)部世界模型。

「覺(jué)醒」階段，智能體利用「睡眠」階段學(xué)到的世界模型內(nèi)部表征進(jìn)行強(qiáng)化學(xué)習(xí)和規(guī)劃，以發(fā)現(xiàn)新的有價(jià)值行為?！赣X(jué)醒」階段獲得的新經(jīng)驗(yàn)數(shù)據(jù)會(huì)加入經(jīng)驗(yàn)庫(kù)，用于下一輪「睡眠」階段以改進(jìn)世界模型。

谷歌這項(xiàng)研究可視為「覺(jué)醒-睡眠」訓(xùn)練循環(huán)的具體實(shí)現(xiàn)：自回歸基礎(chǔ)模型預(yù)訓(xùn)練對(duì)應(yīng)睡眠階段，模型通過(guò)預(yù)測(cè)下一個(gè)token（此處為下一動(dòng)作或觀察）的目標(biāo)，在大量未標(biāo)注行為數(shù)據(jù)上訓(xùn)練。

這一過(guò)程正是自監(jiān)督學(xué)習(xí)，模型學(xué)會(huì)推斷智能體的潛在目標(biāo)（如子目標(biāo)），并在殘差流激活中形成時(shí)間抽象的表征。

覺(jué)醒階段則是元控制器及其驅(qū)動(dòng)的內(nèi)部強(qiáng)化學(xué)習(xí)，學(xué)習(xí)如何操控基礎(chǔ)模型（世界模型）的內(nèi)部殘差流激活，生成有意義、持續(xù)多個(gè)時(shí)間步的抽象動(dòng)作（如「前往藍(lán)色位置」）。

這相當(dāng)于在世界模型的內(nèi)部狀態(tài)空間中進(jìn)行規(guī)劃和控制。

圖6：發(fā)現(xiàn)時(shí)序抽象動(dòng)作時(shí)，預(yù)訓(xùn)練自回歸模型凍結(jié)的重要性

如圖6所示，只有當(dāng)基礎(chǔ)自回歸模型在元控制器訓(xùn)練期間被凍結(jié)時(shí)，才會(huì)涌現(xiàn)出與子目標(biāo)對(duì)齊的正確切換表征。

這一發(fā)現(xiàn)有力支持了「覺(jué)醒-睡眠」循環(huán)的分階段迭代思想：先通過(guò)預(yù)訓(xùn)練建立高質(zhì)量、穩(wěn)定的世界模型（基礎(chǔ)模型），再在此基礎(chǔ)上通過(guò)元控制器學(xué)習(xí)驅(qū)動(dòng)內(nèi)部強(qiáng)化學(xué)習(xí)，從而掌握控制策略。

若兩者同時(shí)訓(xùn)練（共訓(xùn)練），模型會(huì)收斂到退化的解決方案，無(wú)法發(fā)現(xiàn)有意義的時(shí)間抽象。

這印證了分階段、迭代式訓(xùn)練的理論優(yōu)越性，符合Jürgen Schmidhuber提出的「先睡眠（構(gòu)建模型）、后覺(jué)醒（學(xué)習(xí)控制）」循環(huán)訓(xùn)練方案。

破解隨機(jī)鸚鵡爭(zhēng)議

大模型研究領(lǐng)域中，一直有批評(píng)者認(rèn)為自回歸模型無(wú)論參數(shù)量多大，都只是「隨機(jī)鸚鵡」，難以形成一致的時(shí)間抽象和規(guī)劃能力。

而該研究表明，預(yù)測(cè)下一個(gè)詞的訓(xùn)練方式只要結(jié)合元控制器，就能誘導(dǎo)出層次化的時(shí)間抽象，這與人類解決問(wèn)題的方式高度相似。

在不依賴手動(dòng)獎(jiǎng)勵(lì)塑形的情況下解決多步驟任務(wù)，是邁向能導(dǎo)航復(fù)雜、開(kāi)放式搜索空間的自主智能體的關(guān)鍵一步——在這些空間中，中間進(jìn)度的定義往往未知。

谷歌團(tuán)隊(duì)的這項(xiàng)研究標(biāo)志著AI研究從單純優(yōu)化模型輸出，轉(zhuǎn)向理解和操控模型內(nèi)部認(rèn)知過(guò)程，為開(kāi)發(fā)具有真正層次化推理能力的通用AI系統(tǒng)提供了堅(jiān)實(shí)實(shí)踐基礎(chǔ)，說(shuō)明模仿人類睡眠機(jī)制，才能實(shí)現(xiàn)復(fù)雜時(shí)間序列任務(wù)的高效學(xué)習(xí)。

與稀疏自編碼器（SAEs）等解釋性方法相比，元控制器具有顯著優(yōu)勢(shì)：它直接通過(guò)殘差流干預(yù)降低預(yù)測(cè)誤差，具備內(nèi)部記憶，支持長(zhǎng)時(shí)間跨度干預(yù)，且能發(fā)現(xiàn)可解釋、長(zhǎng)時(shí)間持續(xù)的干預(yù)策略。

這項(xiàng)技術(shù)的潛在應(yīng)用十分廣泛：

在機(jī)器人控制領(lǐng)域，可讓機(jī)器人執(zhí)行需多步協(xié)調(diào)的復(fù)雜任務(wù)；在數(shù)學(xué)推理方面，能自主將復(fù)雜問(wèn)題分解為可管理的推理步驟；在科學(xué)發(fā)現(xiàn)領(lǐng)域，可讓智能體在稀疏獎(jiǎng)勵(lì)環(huán)境中進(jìn)行高效探索和假設(shè)檢驗(yàn)。

谷歌提出的內(nèi)部強(qiáng)化學(xué)習(xí)范式尤其適合需長(zhǎng)期規(guī)劃和組合推理的場(chǎng)景，為實(shí)現(xiàn)真正通用的智能系統(tǒng)提供了新路徑。

本文來(lái)自微信公眾號(hào)“新智元”，作者：新智元，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

領(lǐng)克僅靠道歉就能解決問(wèn)題嗎？

2026開(kāi)年手機(jī)黑科技：三星S26Ultra首發(fā)硬件級(jí)防窺屏，隱私保護(hù)再升級(jí)

2026年YouTube美妝生態(tài)深度剖析：中國(guó)美妝品牌的全球內(nèi)容新機(jī)遇

汪涵11歲兒子低調(diào)當(dāng)公益義工，“老干部”式家教養(yǎng)出陽(yáng)光社牛少年

Nod Young談設(shè)計(jì)：溝通的本質(zhì)與創(chuàng)作的溫度

<ruby id="nuiih"><strong id="nuiih"><address id="nuiih"></address></strong></ruby>