欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

姚順雨主導(dǎo)的騰訊混元新研究:破解AI上下文難題,成紅包大戰(zhàn)后決戰(zhàn)關(guān)鍵

02-08 06:12
若論AI的致命短板,上下文理解堪稱其一。

春節(jié)未至,各大廠商已摩拳擦掌:先有元寶派發(fā)紅包,緊接著千問(wèn)豪贈(zèng)奶茶——不過(guò)三十億預(yù)算,不足掛齒。



前端燒錢做推廣,后端默默搭基建,畢竟推廣預(yù)算耗盡后,用戶留存率高低全看產(chǎn)品本身實(shí)力。如此看來(lái),騰訊下半年挖來(lái)前OpenAI研究員、清華姚班天才姚順雨,實(shí)屬深謀遠(yuǎn)慮。


執(zhí)掌騰訊AI業(yè)務(wù)后,姚順雨近日終于推出首項(xiàng)署名研究成果。這是騰訊混元團(tuán)隊(duì)聯(lián)合復(fù)旦大學(xué)開(kāi)展的研究,聚焦于AI的上下文理解問(wèn)題。雖看似冷門技術(shù)點(diǎn),但其發(fā)現(xiàn)卻讓日常使用AI的用戶心驚:若將大模型從“背書模式”切換至“現(xiàn)學(xué)現(xiàn)賣模式”,即便是全球頂尖AI,得分率也僅23.7%。


這項(xiàng)研究絕非技術(shù)圈八卦,它直接解釋了普通用戶為何常覺(jué)得AI“聽(tīng)不懂人話”“死腦筋”或“胡說(shuō)八道”。若說(shuō)AI有致命弱點(diǎn),那非上下文莫屬。


上下文:AI的核心能力


要理解該研究?jī)r(jià)值,需先明晰大模型運(yùn)作的兩個(gè)基礎(chǔ)階段。


第一階段是預(yù)訓(xùn)練。模型通過(guò)學(xué)習(xí)互聯(lián)網(wǎng)海量數(shù)據(jù),掌握大量知識(shí)與模式,這是AI知識(shí)儲(chǔ)備的來(lái)源,也是其能回答通用問(wèn)題的基礎(chǔ),如今已廣為人知。


但問(wèn)題在于,預(yù)訓(xùn)練數(shù)據(jù)是靜態(tài)的,僅反映訓(xùn)練截止前的世界。一旦超出此范圍,模型便會(huì)“失明”——而現(xiàn)實(shí)世界是動(dòng)態(tài)變化的。


于是進(jìn)入第二階段:情境學(xué)習(xí),即上下文處理。當(dāng)用戶向AI提供全新、內(nèi)部或復(fù)雜規(guī)則文本時(shí),實(shí)則要求它跳出預(yù)訓(xùn)練記憶,依據(jù)眼前信息實(shí)時(shí)推理判斷。


比如公司剛開(kāi)完會(huì)的紀(jì)要、游戲新活動(dòng)規(guī)則等,這些知識(shí)未在互聯(lián)網(wǎng)公開(kāi),只能由用戶將規(guī)則、信息(即“上下文”)提供給AI,讓其據(jù)此回答問(wèn)題。


這才是現(xiàn)實(shí):互聯(lián)網(wǎng)并非無(wú)所不包,模型的上下文學(xué)習(xí)能力至關(guān)重要,甚至可稱:上下文是AI的核心能力。



若AI記不住或理解錯(cuò)上下文,就會(huì)開(kāi)始“編造”(即幻覺(jué)),可能依據(jù)預(yù)訓(xùn)練的通用規(guī)則回答——比如會(huì)議紀(jì)要明明說(shuō)行政部負(fù)責(zé)下午茶,它卻說(shuō)是產(chǎn)品經(jīng)理負(fù)責(zé)。


這正是混元團(tuán)隊(duì)構(gòu)建CL - bench的目的。他們打造了近2000個(gè)未在互聯(lián)網(wǎng)公開(kāi)、由專家精心設(shè)計(jì)的“全新情境”,涵蓋虛構(gòu)法律體系、新編程語(yǔ)言語(yǔ)法等。



根據(jù)CL - bench排行榜,當(dāng)前最先進(jìn)的GPT - 5.1 (High)模型正確率僅23.7%,Claude Opus 4.5約21.1%,其他模型多在10% - 18%之間。


這意味著,當(dāng)要求AI“忘掉舊知識(shí),只看我發(fā)的內(nèi)容”時(shí),它們大概率會(huì)出錯(cuò)。就像固執(zhí)的學(xué)生,即便老師在黑板寫“今天1 + 1 = 3”,仍會(huì)喊出“1 + 1 = 2”——因?yàn)樾轮R(shí)對(duì)它們而言“超綱”了。



CL - bench研究揭示了模型情境學(xué)習(xí)失敗的深層原因,解釋了AI為何時(shí)聰明時(shí)“愚蠢”。


最常見(jiàn)的失敗原因是:模型預(yù)訓(xùn)練知識(shí)過(guò)于“根深蒂固”。當(dāng)接收新上下文時(shí),往往無(wú)法抑制預(yù)訓(xùn)練數(shù)據(jù)中的固有模式。


例如CL - bench的一個(gè)測(cè)試案例:研究人員構(gòu)建虛構(gòu)軟件開(kāi)發(fā)包Skynet SDK。雖為虛構(gòu)名,但“Skynet(天網(wǎng))”在AI預(yù)訓(xùn)練數(shù)據(jù)中知名度高,模型可能下意識(shí)帶入《終結(jié)者》電影設(shè)定,無(wú)視說(shuō)明文檔的代碼規(guī)則。



此外,復(fù)雜邏輯推演仍是技術(shù)瓶頸——這多少令人意外,2026年了,AI處理長(zhǎng)文本早該熟練?但事實(shí)是,模型雖能處理幾萬(wàn)字文本,卻未必能從海量信息中精準(zhǔn)找到關(guān)鍵。研究發(fā)現(xiàn),當(dāng)上下文過(guò)長(zhǎng)、邏輯復(fù)雜(如復(fù)雜推理鏈、多輪交互依賴)時(shí),模型表現(xiàn)會(huì)驟降。


若上下文僅為“知識(shí)檢索”(如從文檔找名字),現(xiàn)有模型還能應(yīng)付;但一旦涉及“邏輯推理”,解決率便會(huì)暴跌。


為何騰訊要做這項(xiàng)研究?


CL - bench是姚順雨加入騰訊后的首項(xiàng)署名研究。將其置于騰訊龐大產(chǎn)品矩陣中審視,便會(huì)發(fā)現(xiàn)“上下文學(xué)習(xí)”與騰訊業(yè)務(wù)邏輯的緊密關(guān)聯(lián)。



與側(cè)重搜索或通用生產(chǎn)力工具的科技公司不同,騰訊根基深植于“社交”與“內(nèi)容”領(lǐng)域,而這兩個(gè)領(lǐng)域?qū)I上下文能力要求極高。


以微信或QQ為例,其產(chǎn)生的數(shù)據(jù)并非孤立問(wèn)答,而是連續(xù)、高度碎片化的對(duì)話流——近期的元寶派發(fā)活動(dòng)便是例證。當(dāng)用戶讓AI總結(jié)數(shù)百條消息的群聊重點(diǎn),或在數(shù)月私聊記錄中找某個(gè)約定細(xì)節(jié)時(shí),AI面臨的正是CL - bench測(cè)試的極限:必須在不依賴外部通用知識(shí)的前提下,精準(zhǔn)理解封閉對(duì)話中的特有語(yǔ)境、人際關(guān)系與隱含邏輯。



若AI無(wú)法妥善處理高密度上下文,便無(wú)法真正融入十億用戶的社交場(chǎng)景,只能成為打斷對(duì)話流暢度的“累贅”。


此外,騰訊在游戲與企業(yè)服務(wù)領(lǐng)域的布局,也使其亟需“情境學(xué)習(xí)”能力。游戲方面,各家都在探索AI如何依據(jù)即時(shí)操作與游戲局勢(shì)(即游戲上下文)反應(yīng),而非機(jī)械背誦預(yù)訓(xùn)練臺(tái)詞。


在企業(yè)微信和騰訊會(huì)議場(chǎng)景中,用戶需要的是基于特定會(huì)議紀(jì)要或私有文檔的精準(zhǔn)分析。這些場(chǎng)景下,通用預(yù)訓(xùn)練知識(shí)不僅無(wú)效,甚至可能因“幻覺(jué)”造成嚴(yán)重誤導(dǎo)。


“考試滿分的學(xué)生,未必能勝任實(shí)際工作”——混元團(tuán)隊(duì)意識(shí)到這一點(diǎn),這也是對(duì)當(dāng)下AI的精準(zhǔn)評(píng)價(jià)。對(duì)于擁有海量應(yīng)用場(chǎng)景的騰訊而言,一個(gè)能在復(fù)雜上下文中保持清晰邏輯的模型,比博學(xué)卻只會(huì)死記硬背的模型,具有更大商業(yè)價(jià)值與落地潛力。


本文來(lái)自微信公眾號(hào)“APPSO”,作者:發(fā)現(xiàn)明日產(chǎn)品的,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com