全球首個(gè)全開源科學(xué)文獻(xiàn)綜述AI登Nature:引文準(zhǔn)確率媲美人類專家
OpenScholar的引文準(zhǔn)確率與人類專家不相上下,盡管仍需后續(xù)優(yōu)化,但該工具有望助力科學(xué)家應(yīng)對復(fù)雜且日益繁重的科學(xué)文獻(xiàn)綜述工作。

論文鏈接:https://www.nature.com/articles/s41586-025-10072-4
雖說大語言模型(LLM)在諸多領(lǐng)域表現(xiàn)亮眼,可在科研輔助任務(wù)中卻面臨嚴(yán)峻挑戰(zhàn):科學(xué)文獻(xiàn)總量增長迅猛,模型難以跟進(jìn)最新進(jìn)展,還常出現(xiàn)嚴(yán)重的“幻覺”問題。實(shí)驗(yàn)數(shù)據(jù)表明,GPT-4o引用科學(xué)文獻(xiàn)時(shí),錯(cuò)誤引用比例高達(dá)78%至90%。
OpenScholar整合了4500萬篇開放獲取論文與獨(dú)特的自反饋機(jī)制,成功實(shí)現(xiàn)精準(zhǔn)文獻(xiàn)檢索和準(zhǔn)確引用生成,有效解決了現(xiàn)有模型在科學(xué)知識合成中的準(zhǔn)確性與可信度難題。
首個(gè)全開源的科學(xué)文獻(xiàn)綜述AI系統(tǒng)
OpenScholar是專為科學(xué)研究任務(wù)設(shè)計(jì)的檢索增強(qiáng)語言模型,能從4500萬篇開放獲取論文中識別相關(guān)段落,合成帶引用支持的內(nèi)容來解答科學(xué)查詢。
OpenScholar的出色性能源于三大核心技術(shù)創(chuàng)新:
1.專屬數(shù)據(jù)庫(OSDS):OpenScholar擁有專屬知識庫OSDS,構(gòu)建了完全開放且實(shí)時(shí)更新的語料庫,涵蓋4500萬篇開放獲取科學(xué)論文和2.36億個(gè)段落嵌入向量。龐大的數(shù)據(jù)規(guī)模為訓(xùn)練和推理提供了可復(fù)現(xiàn)基礎(chǔ),保障了檢索的全面性與時(shí)效性。
2.自適應(yīng)檢索:為在海量文獻(xiàn)中精準(zhǔn)定位信息,系統(tǒng)采用專門訓(xùn)練的檢索器,超越簡單關(guān)鍵詞匹配,能依據(jù)查詢語義深度,精準(zhǔn)識別提取最相關(guān)文獻(xiàn)段落,為后續(xù)生成提供高質(zhì)量上下文。
3.自反饋機(jī)制:這是OpenScholar的關(guān)鍵技術(shù)創(chuàng)新。模型引入“自我反饋”推理循環(huán),生成初步回答后,會檢查自身產(chǎn)出的事實(shí)性、覆蓋率和引用準(zhǔn)確性,并據(jù)此迭代優(yōu)化,大幅提升最終回答質(zhì)量。

圖 | OpenScholar整體架構(gòu)。該系統(tǒng)包含專用數(shù)據(jù)存儲、檢索器和語言模型,通過檢索過程中的自反饋推理迭代優(yōu)化響應(yīng)。
性能評估:全面超越現(xiàn)有系統(tǒng)
以往文獻(xiàn)合成評估多聚焦短文本輸出、多項(xiàng)選擇或特定領(lǐng)域推理任務(wù)。為此,研究團(tuán)隊(duì)推出ScholarQABench——首個(gè)大規(guī)模、多領(lǐng)域開放式科學(xué)文獻(xiàn)綜合評測基準(zhǔn),真實(shí)模擬科研前沿挑戰(zhàn):含2967個(gè)專家撰寫查詢和208個(gè)長篇答案,覆蓋計(jì)算機(jī)科學(xué)、物理學(xué)、神經(jīng)科學(xué)和生物醫(yī)學(xué)領(lǐng)域,要求基于大量論文最新文獻(xiàn)生成長篇回答。

圖 | ScholarQABench概覽。該測試含2200道專家撰寫的跨學(xué)科科學(xué)問題,研究團(tuán)隊(duì)開發(fā)了自動與人工評估方案。
在這一嚴(yán)謹(jǐn)新基準(zhǔn)測試中,OpenScholar取得以下關(guān)鍵結(jié)果:
小規(guī)模輕量模型OpenScholar-8B,綜合正確率超GPT-4o 6.1%,也超專用系統(tǒng)PaperQA2 5.5%,實(shí)現(xiàn)性能全面領(lǐng)先。
引用準(zhǔn)確性方面,OpenScholar不僅達(dá)人類專家水平,還展現(xiàn)系統(tǒng)性優(yōu)勢。分析顯示,人類撰寫答案在評分標(biāo)準(zhǔn)評估中比無檢索GPT-4o高9.6分,而OpenScholar-8B表現(xiàn)僅略低于人類專家2.9分。

圖 | 專家撰寫回答統(tǒng)計(jì)。
人類專家評估中,專家明顯更青睞OpenScholar生成的答案。具體而言,OpenScholar使用團(tuán)隊(duì)訓(xùn)練的80億參數(shù)模型和GPT-4o時(shí),分別以51%和70%勝率擊敗人工生成答案,而未經(jīng)增強(qiáng)的原始GPT-4o勝率僅31%,低于人類專家基線。

圖 | 自動與人工評估結(jié)果:基于ScholarQABench計(jì)算機(jī)科學(xué)子集(Scholar-CS,100個(gè)問題)的實(shí)驗(yàn)數(shù)據(jù)顯示,使用團(tuán)隊(duì)訓(xùn)練的8B模型或GPT-4o的OpenScholar系統(tǒng)表現(xiàn)顯著優(yōu)于其他系統(tǒng),人工評估中超50%案例優(yōu)于專家。本次人工評估由16位博士專家對Scholar-Multi的108個(gè)問題進(jìn)行。
除性能卓越外,OpenScholar在設(shè)計(jì)上注重實(shí)用性。其輕量級專用檢索器相比依賴龐大通用模型檢索的方案,大幅降低系統(tǒng)運(yùn)行與計(jì)算成本,讓高質(zhì)量、可信賴的文獻(xiàn)綜述輔助能更可持續(xù)、廣泛地應(yīng)用。
局限性與未來展望
盡管OpenScholar取得突破性進(jìn)展,當(dāng)前評測框架與系統(tǒng)仍存在局限性。
ScholarQABench主要關(guān)注計(jì)算機(jī)科學(xué)、生物醫(yī)學(xué)和物理學(xué),未涵蓋社會科學(xué)、工程學(xué)等重要學(xué)科,研究發(fā)現(xiàn)可能無法完全推廣到其他領(lǐng)域。因?qū)<覙?biāo)注成本高、耗時(shí)長,人工標(biāo)注評估集規(guī)模小,可能引入方差和注釋者專業(yè)偏差。且ScholarQABench是靜態(tài)公開基準(zhǔn),未來存在數(shù)據(jù)污染風(fēng)險(xiǎn),增加訓(xùn)練或搜索中暴露的可能性。
某些復(fù)雜查詢中,OpenScholar仍無法保證始終檢索到最具代表性或最新的相關(guān)論文。80億參數(shù)的OpenScholar-8B模型雖表現(xiàn)優(yōu)異,但指令遵循和科學(xué)知識理解能力有限,可能導(dǎo)致輸出存在事實(shí)性偏差。OpenScholar-GPT-4o版本依賴GPT-4o專有API,底層模型更新后實(shí)驗(yàn)結(jié)果可能難以完全復(fù)現(xiàn),給研究可重復(fù)性帶來挑戰(zhàn)。此外,當(dāng)前系統(tǒng)僅使用開放獲取論文,如何合理合法整合大量受版權(quán)保護(hù)的學(xué)術(shù)文獻(xiàn),仍是亟待解決的問題。
目前,研究團(tuán)隊(duì)已開源OpenScholar的核心資源,包括代碼、數(shù)據(jù)、模型檢查點(diǎn)、數(shù)據(jù)存儲和ScholarQABench,以支持和加速未來研究工作。
在此基礎(chǔ)上,未來工作將整合平臺用戶反饋,持續(xù)優(yōu)化檢索質(zhì)量、引用準(zhǔn)確性及整體可用性。同時(shí),團(tuán)隊(duì)計(jì)劃進(jìn)一步拓展應(yīng)用邊界,將支持范圍延伸至更多科學(xué)領(lǐng)域及多語言場景,并積極尋求與學(xué)術(shù)出版機(jī)構(gòu)合作,探索兼顧知識產(chǎn)權(quán)與開放獲取的合規(guī)數(shù)據(jù)使用機(jī)制。
本文來自微信公眾號“學(xué)術(shù)頭條”(ID:SciTouTiao),作者:王躍然,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com


