欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<li id="ykic6"><object id="ykic6"></object></li>

<ul id="ykic6"></ul>

<option id="ykic6"></option><noframes id="ykic6"><rt id="ykic6"></rt>

姚順雨的最新成果，才是騰訊發(fā)完 10 億紅包后決戰(zhàn) AI 的關(guān)鍵

大廠動態(tài)

02-09 14:45

如果說有什么是 AI 的阿喀琉斯之踵，那上下文（Context）當(dāng)如是

還沒有進(jìn)入春節(jié)，各大廠商已經(jīng)迫不及待了：前有元寶大派紅包，馬上千問就豪請奶茶——花不了多少錢，30 個小目標(biāo)罷了。

預(yù)算在前面燒，基建在后面搭，畢竟等推廣預(yù)算燒完，能做到多少用戶留存，就要看產(chǎn)品本身了。這樣一看，騰訊在下半年把前 OpenAI 研究員、清華姚班的天才少年姚順雨挖到手，可謂計之長遠(yuǎn)。

執(zhí)掌騰訊 AI 之后，近日姚順雨終于發(fā)出了第一項署名研究，這是騰訊混元團(tuán)隊聯(lián)合復(fù)旦大學(xué)發(fā)布的研究，把目光聚集到了上下文。這似乎是一個略顯冷門的技術(shù)點(diǎn)，但研究的發(fā)現(xiàn)是能讓所有日常都在玩 AI 的用戶背脊一涼的：如果我們把大模型從「背書模式」切換到「現(xiàn)學(xué)現(xiàn)賣模式」，即使是目前地球上最強(qiáng)的 AI，得分率也只有慘淡的 23.7%。

這項研究遠(yuǎn)不止是一個技術(shù)圈的八卦，它直接揭示了為什么作為普通用戶的你，經(jīng)常覺得 AI 「聽不懂人話」、「死腦筋」或者「胡說八道」。如果說有什么是 AI 的阿喀琉斯之踵，那上下文（Context）當(dāng)如是。

上下文：AI 的靈魂

要理解這項研究的價值，我們需要先搞清楚大模型運(yùn)作的兩個基本階段。

第一個階段是預(yù)訓(xùn)練。在這個過程中，模型通過閱讀互聯(lián)網(wǎng)上浩如煙海的數(shù)據(jù)，記住了海量的知識和模式。這一點(diǎn)現(xiàn)在大家應(yīng)該都不陌生了。這是 AI 知識儲備的來源，也是它能夠回答通用問題的基礎(chǔ)。

但問題在于，預(yù)訓(xùn)練數(shù)據(jù)是靜態(tài)的，它反映的是模型訓(xùn)練截止日期之前的世界。一旦脫離了這個范圍，模型就會變得盲目——而真實世界是動態(tài)的。

這就來到第二個階段，情境學(xué)習(xí)，也就是我們常說的上下文處理。當(dāng)你把一段全新的、內(nèi)部的、或者是極其復(fù)雜的規(guī)則文本發(fā)給 AI 時，你實際上是在要求它跳出預(yù)訓(xùn)練的記憶，根據(jù)眼前的信息進(jìn)行實時推理和判斷。

像什么呢？比如公司內(nèi)部剛剛開完會之后的紀(jì)要，或者你玩的游戲有了新活動，這些知識從未在互聯(lián)網(wǎng)上出現(xiàn)過，只能由你把規(guī)則、信息（即「上下文」）扔給 AI，讓它根據(jù)這些新知識來回答問題。

這才是現(xiàn)實，互聯(lián)網(wǎng)上并非應(yīng)有盡有，模型對于上下文的學(xué)習(xí)能力可以說是非常重要，甚至可以說：上下文，就是 AI 的靈魂。

如果 AI 記不住、或者理解錯了上下文，它就會開始編造（幻覺），可能會根據(jù)它「記憶」里通用規(guī)則來回答——會議紀(jì)要里明明說行政部要負(fù)責(zé)下午茶，它卻說是產(chǎn)品經(jīng)理管這事兒。

這就是混元團(tuán)隊這次建設(shè) CL-bench 在干的事情。他們構(gòu)建了近 2000 個從未在互聯(lián)網(wǎng)上公開過的、由專家精心構(gòu)造的「全新情境」，有虛構(gòu)的法律體系，新的編程語言語法等等。

根據(jù) CL-bench 的排行榜，目前最先進(jìn)的 GPT-5.1 (High) 模型的正確率僅為 23.7%，Claude Opus 4.5 約為 21.1%，而其他的模型大都在 10%-18% 之間徘徊。

這意味著，當(dāng)我們要求 AI 「忘掉你以前學(xué)的，只看我發(fā)給你的這段話」時，它們大概率會搞砸。它們就像那些固執(zhí)的學(xué)生，哪怕老師已經(jīng)在黑板上寫了「今天 1+1=3」，它還是會大聲喊出「1+1=2」，因為新知識對它而言都 「超綱」 了。

CL-bench 的研究揭示了幾個導(dǎo)致模型在情境學(xué)習(xí)中失敗的深層原因，這些原因解釋了為什么我們在使用 AI 時會感到它有時聰明、有時愚蠢。

最常見的翻車原因。模型在預(yù)訓(xùn)練里學(xué)到的東西太「根深蒂固」了。當(dāng)模型接收到新的上下文時，它往往無法有效抑制住預(yù)訓(xùn)練數(shù)據(jù)中那些根深蒂固的模式。

比如，在 CL-bench 的一個測試案例中，研究人員構(gòu)建了一個虛構(gòu)的軟件開發(fā)包 Skynet SDK。雖然這只是個虛構(gòu)的名字，但因為「Skynet（天網(wǎng)）」在 AI 的潛意識（預(yù)訓(xùn)練數(shù)據(jù)）里太出名了，模型可能會下意識地把《終結(jié)者》電影里的設(shè)定帶入進(jìn)來，從而無視說明文檔里枯燥的代碼規(guī)則。

另外，復(fù)雜邏輯的推演能力依然是目前技術(shù)的瓶頸——這點(diǎn)多少有些令人意外，都 2026 了，AI 處理超長文本不是早已經(jīng)駕輕就熟嗎？但實際上，雖然模型能吞下幾萬字，它并不一定能從數(shù)據(jù)海洋里面精準(zhǔn)地?fù)瞥瞿且桓槨?/strong>研究發(fā)現(xiàn)，當(dāng)提供的上下文非常長、邏輯非常復(fù)雜（比如復(fù)雜的邏輯推理鏈條、多輪的交互依賴）時，模型的表現(xiàn)會直線下降。

如果上下文僅僅是「知識檢索」（比如從文檔里找一個名字），現(xiàn)在的模型還湊合。但一旦涉及到「邏輯推理」，模型的解決率就暴跌。

為什么是騰訊來做？

CL-bench 是姚順雨入主騰訊后，首次署名的研究成果。如果把它放到騰訊龐大的產(chǎn)品矩陣中去審視，就會發(fā)現(xiàn)「上下文學(xué)習(xí)」和這家互聯(lián)網(wǎng)巨頭自身業(yè)務(wù)邏輯之間的關(guān)系。

與其他更偏向搜索或通用生產(chǎn)力工具的科技公司不同，騰訊的根基深深扎根于「社交」與「內(nèi)容」的土壤之中，而這兩個領(lǐng)域?qū)?AI 上下文能力的要求可謂極其苛刻。

想象一下微信或 QQ 的使用場景。這里產(chǎn)生的數(shù)據(jù)并非孤立的問答，而是連綿不斷、高度碎片化的對話流——最新的元寶派就是例子。當(dāng)用戶試圖在一個擁有數(shù)百條消息的群聊中讓 AI 總結(jié)重點(diǎn)，或者在一段長達(dá)數(shù)月的私聊記錄中尋找某個約定的細(xì)節(jié)時，AI 面臨的挑戰(zhàn)正是 CL-bench 所測試的極限：它必須在不依賴外部通用知識的前提下，精準(zhǔn)地理解這段封閉對話中特有的語境、人際關(guān)系和隱含邏輯。

如果 AI 無法妥善處理這種高密度的上下文，它就無法真正融入十億用戶的社交鏈路，只能作為一個甚至?xí)驍鄬υ捔鲿扯鹊睦圪槾嬖凇?/p>

另外，騰訊在游戲與企業(yè)服務(wù)領(lǐng)域的布局，也決定了它對「情境學(xué)習(xí)」的渴求。游戲自不用說，各家都在探索 AI 如何根據(jù)即時的操作和游戲內(nèi)的實時局勢（即游戲上下文）做出反應(yīng)，而不是機(jī)械地背誦預(yù)訓(xùn)練好的臺詞。

在企業(yè)微信和騰訊會議的場景中，用戶需要的往往是基于特定會議紀(jì)要或私有文檔的精準(zhǔn)分析。在這些場景下，通用的預(yù)訓(xùn)練知識不僅無效，甚至可能因為「幻覺」而帶來嚴(yán)重的誤導(dǎo)。

「在場景中演滿分的學(xué)生，未必能勝任真實世界的工種」—— 混元團(tuán)隊意識到了這一點(diǎn)，這也恰恰是對當(dāng)下 AI 最好的注腳。對于坐擁海量應(yīng)用場景的騰訊來說，一個能在復(fù)雜上下文中保持清醒、邏輯嚴(yán)密的模型，遠(yuǎn)比一個博學(xué)但只會死記硬背的模型，具有更大的商業(yè)價值和落地潛力。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

1999年英國礦工獲賠5億英鎊，只因他們的手指變了個顏色
“十五五”藍(lán)圖下，民企必須的三次自我進(jìn)化
王楚欽4-2力克張本智和成功衛(wèi)冕乒乓球亞洲杯男單冠軍
9小時破千萬單！阿里千問砸30億打響史上最猛春節(jié)AI消費(fèi)戰(zhàn)
新春雅韻聚望江，梅香墨韻賀新年

項目推薦

迪瓜租機(jī)
水靈瓏
康老板 · 氧療堂

頻道

商界觀察
宏觀聲音
財富故事
行業(yè)趨勢
資本創(chuàng)投
老板健康
補(bǔ)貼政策
天九動態(tài)
早知道
老板智庫
商機(jī)速覽
大廠動態(tài)
大會活動
天九速覽

項目

全部項目
大消費(fèi)
信息科技
生命健康

北京市朝陽區(qū)仰山公園8號樓

（010）53118800

友情鏈接

天九共享控股集團(tuán)

版權(quán)所有? 天九共享網(wǎng)絡(luò)科技集團(tuán)有限公司京ICP備17023147號-3 京公網(wǎng)安備11010502055446號

感谢您访问我们的网站，您可能还对以下资源感兴趣：
欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿