欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

《Nature》與《Science》聚焦:小模型OpenScholar如何破解AI幻覺難題

02-06 06:33

《Nature》重磅發(fā)布:僅80億參數(shù)的OpenScholar模型打破「參數(shù)越大越好」的固有認(rèn)知!它跳出死記硬背的局限,憑借「檢索+自我核查」機制根治AI幻覺問題,在科學(xué)綜述任務(wù)中的表現(xiàn)超越了行業(yè)頂尖的大模型。


近日,一篇登上《Nature》正刊的論文開源了OpenScholar模型,該成果同時也被《Science》關(guān)注報道。



這個只有80億參數(shù)的小模型,在科學(xué)文獻(xiàn)綜述任務(wù)上,戰(zhàn)勝了參數(shù)規(guī)模遠(yuǎn)超它的旗艦?zāi)P汀?/p>


這無疑釋放出范式轉(zhuǎn)變的信號:在嚴(yán)謹(jǐn)?shù)目茖W(xué)研究領(lǐng)域,依賴模型內(nèi)部模糊記憶的「黑盒」模式已成過去,能精準(zhǔn)調(diào)用外部知識庫的「外掛」模式才是未來趨勢。


終結(jié)幻覺困擾


此前,科研人員對通用大模型的態(tài)度十分復(fù)雜,既依賴其能力又對其缺陷感到無奈。


不滿主要源于大模型一個致命的問題——幻覺。


當(dāng)時的相關(guān)數(shù)據(jù)令人震驚:當(dāng)要求大模型回答生物醫(yī)學(xué)等專業(yè)領(lǐng)域問題時,其偽造引用的比例最高達(dá)到90%。


它會自信地編造出不存在的論文標(biāo)題、作者甚至具體頁碼。對于需要精準(zhǔn)嚴(yán)謹(jǐn)?shù)目茖W(xué)研究而言,這種不可靠性是極具破壞性的。


OpenScholar的誕生,正是為了修正這一關(guān)鍵偏差。


由華盛頓大學(xué)和艾倫人工智能研究所(Ai2)聯(lián)合開發(fā)的這套系統(tǒng),核心思路不再是讓模型「記住」所有知識,而是教會模型像人類學(xué)者一樣去「查閱資料」。


OpenScholar不依賴模型參數(shù)中存儲的模糊記憶,而是外接了一個包含4500萬篇開放獲取論文的大型數(shù)據(jù)庫。


當(dāng)用戶提出問題時,它不會直接生成答案,而是遵循一套嚴(yán)謹(jǐn)?shù)牧鞒蹋?/p>


檢索:首先在4500萬篇文獻(xiàn)中快速篩選出最相關(guān)的內(nèi)容片段。


重排序:利用交叉編碼器對篩選出的片段進行精細(xì)甄別,去除無效信息保留真實可靠的內(nèi)容。


生成與反饋:這是最為關(guān)鍵的一步。模型生成答案草稿后,會進行自我檢查——「這句話是否有足夠的證據(jù)支持?」如果發(fā)現(xiàn)證據(jù)不足,它會啟動第二輪、第三輪檢索,直到每一條論述都有確鑿的文獻(xiàn)作為依據(jù)。


最終結(jié)果呈現(xiàn)出壓倒性優(yōu)勢。在覆蓋計算機科學(xué)、物理學(xué)等領(lǐng)域的ScholarQABench基準(zhǔn)測試中,OpenScholar-8B的正確率不僅超過了當(dāng)時的旗艦?zāi)P?,還將推理成本降低了兩個數(shù)量級(每次約0.003美元)。



這一結(jié)果證明,在特定專業(yè)領(lǐng)域,一個配備了「知識庫」的小模型,比一個沒有外部支持卻容易產(chǎn)生幻覺的大模型更可靠。


DR Tulu:從「回答問題」到「深度研究」的跨越


如果說OpenScholar解決的是AI回答的「準(zhǔn)確性」問題,那么其后續(xù)迭代版本DR Tulu(Deep Research Tulu)則向「深度研究」方向邁進。


科學(xué)研究往往不是簡單的一問一答,而是漫長的探索與信息綜合過程。


2025年11月發(fā)布的DR Tulu,針對的是長篇幅、多維度的「深度研究」任務(wù)。


它的核心突破在于引入了「演化評分規(guī)則的強化學(xué)習(xí)」(RLER, Reinforcement Learning with Evolving Rubrics)。


在以往的訓(xùn)練模式中,AI很難判斷一篇數(shù)千字的文獻(xiàn)綜述質(zhì)量高低。


DR Tulu不依賴固定的評分標(biāo)準(zhǔn),而是讓模型在搜索和研究過程中,動態(tài)生成針對當(dāng)前問題的評分細(xì)則。


它既學(xué)習(xí)「什么是有效的研究策略」(比如挖掘冷門數(shù)據(jù)源),也學(xué)習(xí)「什么是不良行為」(比如為了湊字?jǐn)?shù)而堆砌引用)。


這種訓(xùn)練方式讓DR Tulu具備了更強的規(guī)劃能力。


面對復(fù)雜的科學(xué)命題,它能像資深研究員一樣,先制定研究大綱,再分主題檢索資料,最后整合多來源信息撰寫長篇研究報告。


在最新測試中,DR Tulu-8B的表現(xiàn)已能與當(dāng)時的旗艦專有模型比肩甚至超越,且其代碼和權(quán)重完全開源。



核心推動者:Akari Asai


這一系列具有顛覆性的研究工作,核心人物是即將于2026年秋季加入卡內(nèi)基梅隆大學(xué)(CMU)的Akari Asai(淺井明里)。



這位畢業(yè)于東京大學(xué)本科、在華盛頓大學(xué)取得博士學(xué)位的年輕學(xué)者,是近年來「檢索增強生成」(RAG)領(lǐng)域最活躍的研究者之一。


早在Meta AI實習(xí)期間,她就專注于解決大模型的知識瓶頸問題。


Akari Asai的研究理念十分明確:不要試圖讓模型容納整個世界的知識,而要讓模型學(xué)會利用外部世界的知識。


她主導(dǎo)的OpenScholar和DR Tulu項目,不僅是技術(shù)層面的進步,還帶有強烈的「民主化」色彩。


通過開源高性能的小模型和檢索架構(gòu),她正在打破科技巨頭對頂級科研AI工具的壟斷,讓全球資源相對匱乏地區(qū)的科學(xué)家也能擁有一位不知疲倦的「超級科研助理」。


未來展望


科學(xué)的本質(zhì)并非記憶,而是探索與發(fā)現(xiàn)。


當(dāng)我們把AI從死記硬背的參數(shù)競賽中解放出來,賦予它查閱資料、驗證信息和自我反思的能力時,我們創(chuàng)造的不再是一個只會聊天的機器,而是一把能幫助人類在浩瀚知識海洋中開拓前行的有力工具。


未來的科研工作,或許不再取決于個人讀過多少論文,而在于如何有效駕馭那個能「查閱所有論文」的AI助手。


參考資料:


https://www.nature.com/articles/s41586-025-10072-4


https://www.science.org/content/article/open-source-ai-program-can-answer-science-questions-better-humans


本文來自微信公眾號“新智元”,作者:新智元,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com