欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

《Nature》與《Science》聚焦：小模型OpenScholar如何破解AI幻覺難題

02-06 06:33

《Nature》重磅發(fā)布：僅80億參數(shù)的OpenScholar模型打破「參數(shù)越大越好」的固有認(rèn)知！它跳出死記硬背的局限，憑借「檢索+自我核查」機制根治AI幻覺問題，在科學(xué)綜述任務(wù)中的表現(xiàn)超越了行業(yè)頂尖的大模型。

近日，一篇登上《Nature》正刊的論文開源了OpenScholar模型，該成果同時也被《Science》關(guān)注報道。

這個只有80億參數(shù)的小模型，在科學(xué)文獻(xiàn)綜述任務(wù)上，戰(zhàn)勝了參數(shù)規(guī)模遠(yuǎn)超它的旗艦?zāi)Ｐ汀?/p>

這無疑釋放出范式轉(zhuǎn)變的信號：在嚴(yán)謹(jǐn)?shù)目茖W(xué)研究領(lǐng)域，依賴模型內(nèi)部模糊記憶的「黑盒」模式已成過去，能精準(zhǔn)調(diào)用外部知識庫的「外掛」模式才是未來趨勢。

終結(jié)幻覺困擾

此前，科研人員對通用大模型的態(tài)度十分復(fù)雜，既依賴其能力又對其缺陷感到無奈。

不滿主要源于大模型一個致命的問題——幻覺。

當(dāng)時的相關(guān)數(shù)據(jù)令人震驚：當(dāng)要求大模型回答生物醫(yī)學(xué)等專業(yè)領(lǐng)域問題時，其偽造引用的比例最高達(dá)到90%。

它會自信地編造出不存在的論文標(biāo)題、作者甚至具體頁碼。對于需要精準(zhǔn)嚴(yán)謹(jǐn)?shù)目茖W(xué)研究而言，這種不可靠性是極具破壞性的。

OpenScholar的誕生，正是為了修正這一關(guān)鍵偏差。

由華盛頓大學(xué)和艾倫人工智能研究所（Ai2）聯(lián)合開發(fā)的這套系統(tǒng)，核心思路不再是讓模型「記住」所有知識，而是教會模型像人類學(xué)者一樣去「查閱資料」。

OpenScholar不依賴模型參數(shù)中存儲的模糊記憶，而是外接了一個包含4500萬篇開放獲取論文的大型數(shù)據(jù)庫。

當(dāng)用戶提出問題時，它不會直接生成答案，而是遵循一套嚴(yán)謹(jǐn)?shù)牧鞒蹋?/p>

檢索：首先在4500萬篇文獻(xiàn)中快速篩選出最相關(guān)的內(nèi)容片段。

重排序：利用交叉編碼器對篩選出的片段進行精細(xì)甄別，去除無效信息保留真實可靠的內(nèi)容。

生成與反饋：這是最為關(guān)鍵的一步。模型生成答案草稿后，會進行自我檢查——「這句話是否有足夠的證據(jù)支持？」如果發(fā)現(xiàn)證據(jù)不足，它會啟動第二輪、第三輪檢索，直到每一條論述都有確鑿的文獻(xiàn)作為依據(jù)。

最終結(jié)果呈現(xiàn)出壓倒性優(yōu)勢。在覆蓋計算機科學(xué)、物理學(xué)等領(lǐng)域的ScholarQABench基準(zhǔn)測試中，OpenScholar-8B的正確率不僅超過了當(dāng)時的旗艦?zāi)Ｐ?，還將推理成本降低了兩個數(shù)量級（每次約0.003美元）。

這一結(jié)果證明，在特定專業(yè)領(lǐng)域，一個配備了「知識庫」的小模型，比一個沒有外部支持卻容易產(chǎn)生幻覺的大模型更可靠。

DR Tulu：從「回答問題」到「深度研究」的跨越

如果說OpenScholar解決的是AI回答的「準(zhǔn)確性」問題，那么其后續(xù)迭代版本DR Tulu（Deep Research Tulu）則向「深度研究」方向邁進。

科學(xué)研究往往不是簡單的一問一答，而是漫長的探索與信息綜合過程。

2025年11月發(fā)布的DR Tulu，針對的是長篇幅、多維度的「深度研究」任務(wù)。

它的核心突破在于引入了「演化評分規(guī)則的強化學(xué)習(xí)」（RLER, Reinforcement Learning with Evolving Rubrics）。

在以往的訓(xùn)練模式中，AI很難判斷一篇數(shù)千字的文獻(xiàn)綜述質(zhì)量高低。

DR Tulu不依賴固定的評分標(biāo)準(zhǔn)，而是讓模型在搜索和研究過程中，動態(tài)生成針對當(dāng)前問題的評分細(xì)則。

它既學(xué)習(xí)「什么是有效的研究策略」（比如挖掘冷門數(shù)據(jù)源），也學(xué)習(xí)「什么是不良行為」（比如為了湊字?jǐn)?shù)而堆砌引用）。

這種訓(xùn)練方式讓DR Tulu具備了更強的規(guī)劃能力。

面對復(fù)雜的科學(xué)命題，它能像資深研究員一樣，先制定研究大綱，再分主題檢索資料，最后整合多來源信息撰寫長篇研究報告。

在最新測試中，DR Tulu-8B的表現(xiàn)已能與當(dāng)時的旗艦專有模型比肩甚至超越，且其代碼和權(quán)重完全開源。

核心推動者：Akari Asai

這一系列具有顛覆性的研究工作，核心人物是即將于2026年秋季加入卡內(nèi)基梅隆大學(xué)（CMU）的Akari Asai（淺井明里）。

這位畢業(yè)于東京大學(xué)本科、在華盛頓大學(xué)取得博士學(xué)位的年輕學(xué)者，是近年來「檢索增強生成」（RAG）領(lǐng)域最活躍的研究者之一。

早在Meta AI實習(xí)期間，她就專注于解決大模型的知識瓶頸問題。

Akari Asai的研究理念十分明確：不要試圖讓模型容納整個世界的知識，而要讓模型學(xué)會利用外部世界的知識。

她主導(dǎo)的OpenScholar和DR Tulu項目，不僅是技術(shù)層面的進步，還帶有強烈的「民主化」色彩。

通過開源高性能的小模型和檢索架構(gòu)，她正在打破科技巨頭對頂級科研AI工具的壟斷，讓全球資源相對匱乏地區(qū)的科學(xué)家也能擁有一位不知疲倦的「超級科研助理」。

未來展望

科學(xué)的本質(zhì)并非記憶，而是探索與發(fā)現(xiàn)。

當(dāng)我們把AI從死記硬背的參數(shù)競賽中解放出來，賦予它查閱資料、驗證信息和自我反思的能力時，我們創(chuàng)造的不再是一個只會聊天的機器，而是一把能幫助人類在浩瀚知識海洋中開拓前行的有力工具。

未來的科研工作，或許不再取決于個人讀過多少論文，而在于如何有效駕馭那個能「查閱所有論文」的AI助手。

參考資料：

https://www.nature.com/articles/s41586-025-10072-4

https://www.science.org/content/article/open-source-ai-program-can-answer-science-questions-better-humans

本文來自微信公眾號“新智元”，作者：新智元，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

實測｜履歷一致的男女應(yīng)屆畢業(yè)生求職對比：崗位與薪資差異顯著

別再被FOMO裹挾，“人類終結(jié)者”Moltbook已落幕

從高額提成到透明定價，高端理財收費模式迎來新變局？

巨虧21.4億！胖東來為何難救“永輝們”？

比特幣跌破7萬關(guān)口引擔(dān)憂，預(yù)測市場看空情緒濃厚

項目推薦

康小虎 · 健康小屋

康老板 · 氧療堂