NeurIPS論文假開源遭曝光,較真研究員點名批評
2025年已過,2026年已至……但仍有較真的科研人員和程序員,決心站出來整治行業(yè)內(nèi)的不良風(fēng)氣。
究竟是何事呢?
是AI學(xué)術(shù)界存在的假開源問題。
即發(fā)表論文時聲稱開源,還像模像樣地附上GitHub鏈接,結(jié)果后續(xù)便沒了下文。
這不,一位匿名AI研究員,專門針對AI領(lǐng)域頂級會議NeurIPS 2024展開調(diào)查,查看那些被接收的論文中,明確標(biāo)注開源的項目最終有多少兌現(xiàn)了承諾。
不統(tǒng)計不知道,一查便發(fā)現(xiàn)了大問題——

從NeurIPS 2024收錄的4035篇論文數(shù)據(jù)來看,其中真實開源的論文有2404篇;
除了1533篇未提供鏈接的論文外,有98篇論文明確表示開源且給出了鏈接,但代碼倉庫點進(jìn)去要么爛尾要么處于待建狀態(tài)。
當(dāng)然,由于這項工作是通過AI完成的,可能存在一定錯漏。
但這個“項目”對事也對人,有圖有真相,有統(tǒng)計有數(shù)據(jù),指名道姓地列出了相關(guān)單位……
實在太令人震驚了。
較真的AI研究員
據(jù)說事情的起因是,這位研究員抱著學(xué)習(xí)的心態(tài)點開開源鏈接,卻被一個又一個404頁面和“Code coming soon”的提示浪費時間,最終忍無可忍。
于是,在又一次被空倉庫“忽悠”后,他決定不再沉默。
他直接對NeurIPS 2024這個已結(jié)束一年多的頂會論文進(jìn)行了全面核查,截至目前仍未填補(bǔ)的“坑”,那些“Coming Soon”大概率已變成“Coming Never”。

用于爬取代碼倉庫的系統(tǒng)僅用一個晚上就開發(fā)完成。
該研究員表示,在智能體AI崛起的時代,深度核查學(xué)術(shù)誠信的成本將趨近于零,誰腳踏實地做研究,誰投機(jī)取巧搞形式,在大數(shù)據(jù)面前一目了然。
核查所用的AI系統(tǒng)融合了OpenReview/GitHub API及PDF解析技術(shù),直接從論文PDF中提取鏈接,再逐個驗證鏈接內(nèi)是否有實際內(nèi)容。
不過,這位研究員也強(qiáng)調(diào),系統(tǒng)基于自動化爬取和啟發(fā)式邏輯,可能存在誤判(假陽性/假陰性),統(tǒng)計結(jié)果僅供參考,建議自行核驗。
從檢索結(jié)果來看,這份數(shù)據(jù)公開了各機(jī)構(gòu)(橫軸)的論文錄用數(shù)量、真實開源數(shù)量、未標(biāo)明鏈接的文章數(shù),以及最受關(guān)注的假開源數(shù)量。

此外,還有98份明確承諾開源并提供鏈接,但鏈接指向空倉庫的假開源名單,將這些“學(xué)術(shù)鴿王”的信息公之于眾。

看完這些數(shù)據(jù),只能用震驚來形容……
會議已結(jié)束一年多,這些“Coming Soon”為何最終變成了“Coming Never”?
假開源現(xiàn)象為何出現(xiàn)?
直接原因與審稿機(jī)制有關(guān)。
自2021年起,NeurIPS等頂會強(qiáng)制要求填寫可復(fù)現(xiàn)性檢查表(Reproducibility Checklist);
2024年的要求更為嚴(yán)格,不僅填寫內(nèi)容更細(xì)致,無法開源的理由也需詳細(xì)說明,這些因素直接影響論文的審稿評分。
在這種機(jī)制下,勾選“愿意開源”幾乎成為論文錄用的潛規(guī)則加分項,代碼倉庫中的“Coming Soon”也隨之盛行。
盡管頂會強(qiáng)制提交檢查表,但并未強(qiáng)制驗證可復(fù)現(xiàn)性,這就給了部分人鉆空子的機(jī)會。

當(dāng)然,現(xiàn)實情況可能比單純的偷懶更復(fù)雜。
有些工業(yè)界的論文,代碼發(fā)布需經(jīng)過漫長的合規(guī)審批流程,團(tuán)隊便先在倉庫中放置占位符,為創(chuàng)意“占坑”;
還有一些項目復(fù)現(xiàn)門檻極高,訓(xùn)練一次需耗費大量算力,使用的數(shù)據(jù)可能是內(nèi)部數(shù)據(jù),基本無人能復(fù)現(xiàn),反而會引發(fā)質(zhì)疑,索性就不再公開代碼;
再加上課題組方向調(diào)整或?qū)@麊栴}等意外情況,許多原本能公開的代碼最終不了了之……
其實,代碼倉庫“放鴿子”的現(xiàn)象并非只在私下被抱怨,前Stability AI研究總監(jiān)Tanishq Mathew Abraham就曾公開批評過這種行為。

不少網(wǎng)友也對空倉庫問題深感困擾。

而且AI圈中有卡帕西這樣的開源模范,論文發(fā)表后代碼立即公開,甚至還會附上詳細(xì)的視頻教程。
正因如此,大家看多了404頁面和“Coming Soon”提示后才會如此憤怒。

補(bǔ)充說明
這位匿名AI研究員留言稱:
“沒時間”永遠(yuǎn)不是違背承諾的借口。若無法開源,就不該在論文中承諾。
能力不足并非過錯;但當(dāng)欲望超出能力范圍,迫使你犧牲學(xué)術(shù)道德?lián)Q取虛名時,這就是錯誤。
我并非針對某個人,只是想給行業(yè)提個醒。
AI領(lǐng)域發(fā)展迅速,新想法、新技術(shù)、新產(chǎn)品不斷涌現(xiàn),但科研誠信或許是最值得被“Fork”和“Star”的品質(zhì)。
由于涉及具體機(jī)構(gòu)和人員,且不符合原作者初衷,完整名單和鏈接在此不公開……
希望AI研究能越來越好。
本文來自微信公眾號“量子位”,作者:關(guān)注前沿科技,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com


