姚順雨的最新成果,才是騰訊發(fā)完 10 億紅包后決戰(zhàn) AI 的關(guān)鍵
如果說有什么是 AI 的阿喀琉斯之踵,那上下文(Context)當(dāng)如是
還沒有進(jìn)入春節(jié),各大廠商已經(jīng)迫不及待了:前有元寶大派紅包,馬上千問就豪請奶茶——花不了多少錢,30 個小目標(biāo)罷了。

預(yù)算在前面燒,基建在后面搭,畢竟等推廣預(yù)算燒完,能做到多少用戶留存,就要看產(chǎn)品本身了。這樣一看,騰訊在下半年把前 OpenAI 研究員、清華姚班的天才少年姚順雨挖到手,可謂計之長遠(yuǎn)。
執(zhí)掌騰訊 AI 之后,近日姚順雨終于發(fā)出了第一項署名研究,這是騰訊混元團(tuán)隊聯(lián)合復(fù)旦大學(xué)發(fā)布的研究,把目光聚集到了上下文。這似乎是一個略顯冷門的技術(shù)點(diǎn),但研究的發(fā)現(xiàn)是能讓所有日常都在玩 AI 的用戶背脊一涼的:如果我們把大模型從「背書模式」切換到「現(xiàn)學(xué)現(xiàn)賣模式」,即使是目前地球上最強(qiáng)的 AI,得分率也只有慘淡的 23.7%。
這項研究遠(yuǎn)不止是一個技術(shù)圈的八卦,它直接揭示了為什么作為普通用戶的你,經(jīng)常覺得 AI 「聽不懂人話」、「死腦筋」或者「胡說八道」。如果說有什么是 AI 的阿喀琉斯之踵,那上下文(Context)當(dāng)如是。
上下文:AI 的靈魂
要理解這項研究的價值,我們需要先搞清楚大模型運(yùn)作的兩個基本階段。
第一個階段是預(yù)訓(xùn)練。在這個過程中,模型通過閱讀互聯(lián)網(wǎng)上浩如煙海的數(shù)據(jù),記住了海量的知識和模式。這一點(diǎn)現(xiàn)在大家應(yīng)該都不陌生了。這是 AI 知識儲備的來源,也是它能夠回答通用問題的基礎(chǔ)。
但問題在于,預(yù)訓(xùn)練數(shù)據(jù)是靜態(tài)的,它反映的是模型訓(xùn)練截止日期之前的世界。一旦脫離了這個范圍,模型就會變得盲目——而真實世界是動態(tài)的。
這就來到第二個階段,情境學(xué)習(xí),也就是我們常說的上下文處理。當(dāng)你把一段全新的、內(nèi)部的、或者是極其復(fù)雜的規(guī)則文本發(fā)給 AI 時,你實際上是在要求它跳出預(yù)訓(xùn)練的記憶,根據(jù)眼前的信息進(jìn)行實時推理和判斷。
像什么呢?比如公司內(nèi)部剛剛開完會之后的紀(jì)要,或者你玩的游戲有了新活動,這些知識從未在互聯(lián)網(wǎng)上出現(xiàn)過,只能由你把規(guī)則、信息(即「上下文」)扔給 AI,讓它根據(jù)這些新知識來回答問題。
這才是現(xiàn)實,互聯(lián)網(wǎng)上并非應(yīng)有盡有,模型對于上下文的學(xué)習(xí)能力可以說是非常重要,甚至可以說:上下文,就是 AI 的靈魂。

如果 AI 記不住、或者理解錯了上下文,它就會開始編造(幻覺),可能會根據(jù)它「記憶」里通用規(guī)則來回答——會議紀(jì)要里明明說行政部要負(fù)責(zé)下午茶,它卻說是產(chǎn)品經(jīng)理管這事兒。
這就是混元團(tuán)隊這次建設(shè) CL-bench 在干的事情。他們構(gòu)建了近 2000 個從未在互聯(lián)網(wǎng)上公開過的、由專家精心構(gòu)造的「全新情境」,有虛構(gòu)的法律體系,新的編程語言語法等等。

根據(jù) CL-bench 的排行榜,目前最先進(jìn)的 GPT-5.1 (High) 模型的正確率僅為 23.7%,Claude Opus 4.5 約為 21.1%,而其他的模型大都在 10%-18% 之間徘徊。
這意味著,當(dāng)我們要求 AI 「忘掉你以前學(xué)的,只看我發(fā)給你的這段話」時,它們大概率會搞砸。它們就像那些固執(zhí)的學(xué)生,哪怕老師已經(jīng)在黑板上寫了「今天 1+1=3」,它還是會大聲喊出「1+1=2」,因為新知識對它而言都 「超綱」 了。

CL-bench 的研究揭示了幾個導(dǎo)致模型在情境學(xué)習(xí)中失敗的深層原因,這些原因解釋了為什么我們在使用 AI 時會感到它有時聰明、有時愚蠢。
最常見的翻車原因。模型在預(yù)訓(xùn)練里學(xué)到的東西太「根深蒂固」了。當(dāng)模型接收到新的上下文時,它往往無法有效抑制住預(yù)訓(xùn)練數(shù)據(jù)中那些根深蒂固的模式。
比如,在 CL-bench 的一個測試案例中,研究人員構(gòu)建了一個虛構(gòu)的軟件開發(fā)包 Skynet SDK。雖然這只是個虛構(gòu)的名字,但因為「Skynet(天網(wǎng))」在 AI 的潛意識(預(yù)訓(xùn)練數(shù)據(jù))里太出名了,模型可能會下意識地把《終結(jié)者》電影里的設(shè)定帶入進(jìn)來,從而無視說明文檔里枯燥的代碼規(guī)則。

另外,復(fù)雜邏輯的推演能力依然是目前技術(shù)的瓶頸——這點(diǎn)多少有些令人意外,都 2026 了,AI 處理超長文本不是早已經(jīng)駕輕就熟嗎?但實際上,雖然模型能吞下幾萬字,它并不一定能從數(shù)據(jù)海洋里面精準(zhǔn)地?fù)瞥瞿且桓槨?/strong>研究發(fā)現(xiàn),當(dāng)提供的上下文非常長、邏輯非常復(fù)雜(比如復(fù)雜的邏輯推理鏈條、多輪的交互依賴)時,模型的表現(xiàn)會直線下降。
如果上下文僅僅是「知識檢索」(比如從文檔里找一個名字),現(xiàn)在的模型還湊合。但一旦涉及到「邏輯推理」,模型的解決率就暴跌。
為什么是騰訊來做?
CL-bench 是姚順雨入主騰訊后,首次署名的研究成果。如果把它放到騰訊龐大的產(chǎn)品矩陣中去審視,就會發(fā)現(xiàn)「上下文學(xué)習(xí)」和這家互聯(lián)網(wǎng)巨頭自身業(yè)務(wù)邏輯之間的關(guān)系。

與其他更偏向搜索或通用生產(chǎn)力工具的科技公司不同,騰訊的根基深深扎根于「社交」與「內(nèi)容」的土壤之中,而這兩個領(lǐng)域?qū)?AI 上下文能力的要求可謂極其苛刻。
想象一下微信或 QQ 的使用場景。這里產(chǎn)生的數(shù)據(jù)并非孤立的問答,而是連綿不斷、高度碎片化的對話流——最新的元寶派就是例子。當(dāng)用戶試圖在一個擁有數(shù)百條消息的群聊中讓 AI 總結(jié)重點(diǎn),或者在一段長達(dá)數(shù)月的私聊記錄中尋找某個約定的細(xì)節(jié)時,AI 面臨的挑戰(zhàn)正是 CL-bench 所測試的極限:它必須在不依賴外部通用知識的前提下,精準(zhǔn)地理解這段封閉對話中特有的語境、人際關(guān)系和隱含邏輯。

如果 AI 無法妥善處理這種高密度的上下文,它就無法真正融入十億用戶的社交鏈路,只能作為一個甚至?xí)驍鄬υ捔鲿扯鹊睦圪槾嬖凇?/p>
另外,騰訊在游戲與企業(yè)服務(wù)領(lǐng)域的布局,也決定了它對「情境學(xué)習(xí)」的渴求。游戲自不用說,各家都在探索 AI 如何根據(jù)即時的操作和游戲內(nèi)的實時局勢(即游戲上下文)做出反應(yīng),而不是機(jī)械地背誦預(yù)訓(xùn)練好的臺詞。
在企業(yè)微信和騰訊會議的場景中,用戶需要的往往是基于特定會議紀(jì)要或私有文檔的精準(zhǔn)分析。在這些場景下,通用的預(yù)訓(xùn)練知識不僅無效,甚至可能因為「幻覺」而帶來嚴(yán)重的誤導(dǎo)。
「在場景中演滿分的學(xué)生,未必能勝任真實世界的工種」—— 混元團(tuán)隊意識到了這一點(diǎn),這也恰恰是對當(dāng)下 AI 最好的注腳。對于坐擁海量應(yīng)用場景的騰訊來說,一個能在復(fù)雜上下文中保持清醒、邏輯嚴(yán)密的模型,遠(yuǎn)比一個博學(xué)但只會死記硬背的模型,具有更大的商業(yè)價值和落地潛力。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





