欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<ul id="4cquo"><acronym id="4cquo"></acronym></ul>

<menu id="4cquo"><object id="4cquo"></object></menu>

<li id="4cquo"><object id="4cquo"></object></li><ul id="4cquo"></ul>

<menu id="4cquo"><object id="4cquo"></object></menu>

全球首個(gè)全開源科學(xué)文獻(xiàn)綜述AI登Nature：引文準(zhǔn)確率媲美人類專家

02-06 06:15

2月4日，Nature雜志刊載了華盛頓大學(xué)與艾倫人工智能研究所聯(lián)合研發(fā)的科研成果——OpenScholar。這是全球首款專為科學(xué)研究打造的全開源檢索增強(qiáng)生成（RAG）語言模型，具備精準(zhǔn)檢索、規(guī)避幻覺、生成高質(zhì)量引用式回答的能力。

OpenScholar的引文準(zhǔn)確率與人類專家不相上下，盡管仍需后續(xù)優(yōu)化，但該工具有望助力科學(xué)家應(yīng)對(duì)復(fù)雜且日益繁重的科學(xué)文獻(xiàn)綜述工作。

論文鏈接：https://www.nature.com/articles/s41586-025-10072-4

雖說大語言模型（LLM）在諸多領(lǐng)域表現(xiàn)亮眼，可在科研輔助任務(wù)中卻面臨嚴(yán)峻挑戰(zhàn)：科學(xué)文獻(xiàn)總量增長迅猛，模型難以跟進(jìn)最新進(jìn)展，還常出現(xiàn)嚴(yán)重的“幻覺”問題。實(shí)驗(yàn)數(shù)據(jù)表明，GPT-4o引用科學(xué)文獻(xiàn)時(shí)，錯(cuò)誤引用比例高達(dá)78%至90%。

OpenScholar整合了4500萬篇開放獲取論文與獨(dú)特的自反饋機(jī)制，成功實(shí)現(xiàn)精準(zhǔn)文獻(xiàn)檢索和準(zhǔn)確引用生成，有效解決了現(xiàn)有模型在科學(xué)知識(shí)合成中的準(zhǔn)確性與可信度難題。

首個(gè)全開源的科學(xué)文獻(xiàn)綜述AI系統(tǒng)

OpenScholar是專為科學(xué)研究任務(wù)設(shè)計(jì)的檢索增強(qiáng)語言模型，能從4500萬篇開放獲取論文中識(shí)別相關(guān)段落，合成帶引用支持的內(nèi)容來解答科學(xué)查詢。

OpenScholar的出色性能源于三大核心技術(shù)創(chuàng)新：

1.專屬數(shù)據(jù)庫（OSDS）：OpenScholar擁有專屬知識(shí)庫OSDS，構(gòu)建了完全開放且實(shí)時(shí)更新的語料庫，涵蓋4500萬篇開放獲取科學(xué)論文和2.36億個(gè)段落嵌入向量。龐大的數(shù)據(jù)規(guī)模為訓(xùn)練和推理提供了可復(fù)現(xiàn)基礎(chǔ)，保障了檢索的全面性與時(shí)效性。

2.自適應(yīng)檢索：為在海量文獻(xiàn)中精準(zhǔn)定位信息，系統(tǒng)采用專門訓(xùn)練的檢索器，超越簡單關(guān)鍵詞匹配，能依據(jù)查詢語義深度，精準(zhǔn)識(shí)別提取最相關(guān)文獻(xiàn)段落，為后續(xù)生成提供高質(zhì)量上下文。

3.自反饋機(jī)制：這是OpenScholar的關(guān)鍵技術(shù)創(chuàng)新。模型引入“自我反饋”推理循環(huán)，生成初步回答后，會(huì)檢查自身產(chǎn)出的事實(shí)性、覆蓋率和引用準(zhǔn)確性，并據(jù)此迭代優(yōu)化，大幅提升最終回答質(zhì)量。

圖 | OpenScholar整體架構(gòu)。該系統(tǒng)包含專用數(shù)據(jù)存儲(chǔ)、檢索器和語言模型，通過檢索過程中的自反饋推理迭代優(yōu)化響應(yīng)。

性能評(píng)估：全面超越現(xiàn)有系統(tǒng)

以往文獻(xiàn)合成評(píng)估多聚焦短文本輸出、多項(xiàng)選擇或特定領(lǐng)域推理任務(wù)。為此，研究團(tuán)隊(duì)推出ScholarQABench——首個(gè)大規(guī)模、多領(lǐng)域開放式科學(xué)文獻(xiàn)綜合評(píng)測基準(zhǔn)，真實(shí)模擬科研前沿挑戰(zhàn)：含2967個(gè)專家撰寫查詢和208個(gè)長篇答案，覆蓋計(jì)算機(jī)科學(xué)、物理學(xué)、神經(jīng)科學(xué)和生物醫(yī)學(xué)領(lǐng)域，要求基于大量論文最新文獻(xiàn)生成長篇回答。

圖 | ScholarQABench概覽。該測試含2200道專家撰寫的跨學(xué)科科學(xué)問題，研究團(tuán)隊(duì)開發(fā)了自動(dòng)與人工評(píng)估方案。

在這一嚴(yán)謹(jǐn)新基準(zhǔn)測試中，OpenScholar取得以下關(guān)鍵結(jié)果：

小規(guī)模輕量模型OpenScholar-8B，綜合正確率超GPT-4o 6.1%，也超專用系統(tǒng)PaperQA2 5.5%，實(shí)現(xiàn)性能全面領(lǐng)先。

引用準(zhǔn)確性方面，OpenScholar不僅達(dá)人類專家水平，還展現(xiàn)系統(tǒng)性優(yōu)勢。分析顯示，人類撰寫答案在評(píng)分標(biāo)準(zhǔn)評(píng)估中比無檢索GPT-4o高9.6分，而OpenScholar-8B表現(xiàn)僅略低于人類專家2.9分。

圖 | 專家撰寫回答統(tǒng)計(jì)。

人類專家評(píng)估中，專家明顯更青睞OpenScholar生成的答案。具體而言，OpenScholar使用團(tuán)隊(duì)訓(xùn)練的80億參數(shù)模型和GPT-4o時(shí)，分別以51%和70%勝率擊敗人工生成答案，而未經(jīng)增強(qiáng)的原始GPT-4o勝率僅31%，低于人類專家基線。

圖 | 自動(dòng)與人工評(píng)估結(jié)果：基于ScholarQABench計(jì)算機(jī)科學(xué)子集（Scholar-CS，100個(gè)問題）的實(shí)驗(yàn)數(shù)據(jù)顯示，使用團(tuán)隊(duì)訓(xùn)練的8B模型或GPT-4o的OpenScholar系統(tǒng)表現(xiàn)顯著優(yōu)于其他系統(tǒng)，人工評(píng)估中超50%案例優(yōu)于專家。本次人工評(píng)估由16位博士專家對(duì)Scholar-Multi的108個(gè)問題進(jìn)行。

除性能卓越外，OpenScholar在設(shè)計(jì)上注重實(shí)用性。其輕量級(jí)專用檢索器相比依賴龐大通用模型檢索的方案，大幅降低系統(tǒng)運(yùn)行與計(jì)算成本，讓高質(zhì)量、可信賴的文獻(xiàn)綜述輔助能更可持續(xù)、廣泛地應(yīng)用。

局限性與未來展望

盡管OpenScholar取得突破性進(jìn)展，當(dāng)前評(píng)測框架與系統(tǒng)仍存在局限性。

ScholarQABench主要關(guān)注計(jì)算機(jī)科學(xué)、生物醫(yī)學(xué)和物理學(xué)，未涵蓋社會(huì)科學(xué)、工程學(xué)等重要學(xué)科，研究發(fā)現(xiàn)可能無法完全推廣到其他領(lǐng)域。因?qū)＜覙?biāo)注成本高、耗時(shí)長，人工標(biāo)注評(píng)估集規(guī)模小，可能引入方差和注釋者專業(yè)偏差。且ScholarQABench是靜態(tài)公開基準(zhǔn)，未來存在數(shù)據(jù)污染風(fēng)險(xiǎn)，增加訓(xùn)練或搜索中暴露的可能性。

某些復(fù)雜查詢中，OpenScholar仍無法保證始終檢索到最具代表性或最新的相關(guān)論文。80億參數(shù)的OpenScholar-8B模型雖表現(xiàn)優(yōu)異，但指令遵循和科學(xué)知識(shí)理解能力有限，可能導(dǎo)致輸出存在事實(shí)性偏差。OpenScholar-GPT-4o版本依賴GPT-4o專有API，底層模型更新后實(shí)驗(yàn)結(jié)果可能難以完全復(fù)現(xiàn)，給研究可重復(fù)性帶來挑戰(zhàn)。此外，當(dāng)前系統(tǒng)僅使用開放獲取論文，如何合理合法整合大量受版權(quán)保護(hù)的學(xué)術(shù)文獻(xiàn)，仍是亟待解決的問題。

目前，研究團(tuán)隊(duì)已開源OpenScholar的核心資源，包括代碼、數(shù)據(jù)、模型檢查點(diǎn)、數(shù)據(jù)存儲(chǔ)和ScholarQABench，以支持和加速未來研究工作。

在此基礎(chǔ)上，未來工作將整合平臺(tái)用戶反饋，持續(xù)優(yōu)化檢索質(zhì)量、引用準(zhǔn)確性及整體可用性。同時(shí)，團(tuán)隊(duì)計(jì)劃進(jìn)一步拓展應(yīng)用邊界，將支持范圍延伸至更多科學(xué)領(lǐng)域及多語言場景，并積極尋求與學(xué)術(shù)出版機(jī)構(gòu)合作，探索兼顧知識(shí)產(chǎn)權(quán)與開放獲取的合規(guī)數(shù)據(jù)使用機(jī)制。

本文來自微信公眾號(hào)“學(xué)術(shù)頭條”（ID：SciTouTiao），作者：王躍然，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

福鹿家借蜜雪東風(fēng)一年拓店1500家平價(jià)鮮啤模式能否復(fù)制雪王奇跡

月薪三萬仍難住汕頭亞朵，春節(jié)酒店價(jià)格瘋漲背后的深層原因

歌聲里的烏蘭察布：以音樂鋪就文旅融合新路徑

頭部飲品品牌扎堆進(jìn)駐地鐵站半小時(shí)訂單破200單引熱議

縣域?qū)殝屍促彵睒O甜蝦：拼多多上全球海鮮商家的年貨爭奪戰(zhàn)

項(xiàng)目推薦

康小虎 · 健康小屋

康老板 · 氧療堂