欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

OpenAI推出前沿科學(xué)基準(zhǔn)：AI雖獲奧賽金牌，距頂尖科學(xué)家仍有差距

2025-12-18

模型思考時(shí)間越長(zhǎng)，準(zhǔn)確率通常越高。

OpenAI最新發(fā)布的FrontierScience基準(zhǔn)，旨在通過(guò)真實(shí)的博士級(jí)難題，從物理、化學(xué)、生物三個(gè)維度檢驗(yàn)AI。殘酷的現(xiàn)實(shí)是：在沒(méi)有唯一標(biāo)準(zhǔn)答案的科研實(shí)戰(zhàn)中，作為「頂級(jí)做題家」的AI，與真正的科學(xué)家相比，還有很大差距。

2025年12月16日，OpenAI發(fā)布了一套新基準(zhǔn)FrontierScience，用于衡量AI在物理、化學(xué)、生物三門學(xué)科中能否實(shí)現(xiàn)接近專家水平的科學(xué)推理，而非僅僅是背誦知識(shí)點(diǎn)。

OpenAI在文中將科學(xué)工作描述為一套更接近「持續(xù)試錯(cuò)」的流程。

提出假設(shè)，設(shè)計(jì)驗(yàn)證，推翻后重新開(kāi)始，還要將不同領(lǐng)域的線索整合到一起。

模型越強(qiáng)大，問(wèn)題就越尖銳：AI能否將這種深度推理應(yīng)用到真正的科研推進(jìn)中。

OpenAI提到，過(guò)去一年，他們的系統(tǒng)在國(guó)際數(shù)學(xué)奧林匹克和國(guó)際信息學(xué)奧林匹克中取得了金牌級(jí)表現(xiàn)，同時(shí)更重要的變化發(fā)生在實(shí)驗(yàn)室和辦公室里。

研究者開(kāi)始利用這些模型進(jìn)行跨學(xué)科文獻(xiàn)檢索、跨語(yǔ)言閱讀論文，也用它們推導(dǎo)復(fù)雜證明。

有些原本需要幾天甚至幾周的工作，現(xiàn)在幾小時(shí)就能完成一輪。

為何需要FrontierScience？OpenAI給出了一組對(duì)比數(shù)據(jù)。

2023年11月，由博士專家撰寫、強(qiáng)調(diào)「谷歌搜不到」的科學(xué)題庫(kù)GPQA發(fā)布時(shí)，GPT-4僅獲得39%的分?jǐn)?shù)，低于專家基線的74%。

兩年后，GPT-5.2在同一基準(zhǔn)上拿到了92%的分?jǐn)?shù)。

當(dāng)舊題庫(kù)逐漸被模型「刷穿」，就必須有更長(zhǎng)的「尺子」，否則無(wú)法看出模型的發(fā)展空間。

FrontierScience的設(shè)計(jì)更像是給模型設(shè)置了兩種不同的「科學(xué)難關(guān)」。

一類偏向競(jìng)賽風(fēng)格，考查在約束條件下能否清晰利落完成推理。

物理競(jìng)賽題示例

另一類更貼近研究現(xiàn)場(chǎng)，要求在開(kāi)放問(wèn)題中梳理清晰思路，即便沒(méi)有標(biāo)準(zhǔn)答案那般工整。

物理科研問(wèn)題示例

這套評(píng)測(cè)共有超過(guò)700道文本型題目，其中160道屬于「黃金組」（Gold Set）題目。

競(jìng)賽賽道包含100道題，強(qiáng)調(diào)短答案形式，便于核驗(yàn)對(duì)錯(cuò)。

研究賽道有60個(gè)原創(chuàng)研究子任務(wù)，由博士階段或更資深的研究者設(shè)計(jì)，采用10分制評(píng)分，至少拿到7分才算通過(guò)。

題目質(zhì)量有充分保障：

競(jìng)賽賽道與42位前國(guó)際獎(jiǎng)牌得主或國(guó)家隊(duì)教練合作，這些合作者總計(jì)獲得109枚奧賽獎(jiǎng)牌；

研究賽道由45位合格科學(xué)家與領(lǐng)域?qū)＜覅⑴c，覆蓋從量子電動(dòng)力學(xué)到合成有機(jī)化學(xué)，再到進(jìn)化生物學(xué)等細(xì)分方向。

OpenAI還承認(rèn)了一個(gè)并非完全「中立」的細(xì)節(jié)。

兩套題在制作過(guò)程中會(huì)刻意剔除OpenAI自家內(nèi)部模型已能答對(duì)的題目，因此這套評(píng)測(cè)對(duì)OpenAI自家模型可能更為苛刻。

同時(shí)，他們開(kāi)源了兩套賽道的「黃金組」題目，其余題目則保留，用于追蹤數(shù)據(jù)污染情況。

OpenAI表示，短答案適合機(jī)器判定，但研究型任務(wù)需要更細(xì)致的評(píng)分標(biāo)準(zhǔn)，于是他們讓GPT-5充當(dāng)模型判卷員，對(duì)照短答案逐項(xiàng)打分。

理想狀態(tài)是請(qǐng)專家逐題批改，但現(xiàn)實(shí)中規(guī)模不允許，因此規(guī)則被設(shè)計(jì)得盡量客觀且可被模型檢查，并配備了驗(yàn)證流程來(lái)校準(zhǔn)難度與正確性。

在成績(jī)單上，OpenAI給出了一輪初步測(cè)試的對(duì)比結(jié)果。

他們?cè)u(píng)測(cè)了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI稱，GPT-5.2在競(jìng)賽題上得分77%，在研究題上得分25%，目前處于領(lǐng)先；Gemini 3 Pro在競(jìng)賽題上拿到76%，緊隨其后。

更值得關(guān)注的是失敗原因。

OpenAI從答題記錄中總結(jié)發(fā)現(xiàn)，前沿模型仍會(huì)出現(xiàn)推理、邏輯和計(jì)算錯(cuò)誤，會(huì)在冷門概念上卡殼，也會(huì)存在事實(shí)性偏差。

另一個(gè)簡(jiǎn)單的觀察結(jié)果也被寫入正文：模型思考時(shí)間越長(zhǎng)，準(zhǔn)確率通常越高。

OpenAI也直言不諱地指出了FrontierScience的局限性。

它將科研拆解為可控的題目，這讓評(píng)測(cè)更標(biāo)準(zhǔn)化，但也意味著它更像一張高清截圖，而非科研的全景紀(jì)錄片。

尤其是它不評(píng)估模型能否提出真正新穎的假設(shè)，也不涵蓋模型與多模態(tài)數(shù)據(jù)及現(xiàn)實(shí)實(shí)驗(yàn)系統(tǒng)交互的能力。

接下來(lái)，OpenAI計(jì)劃迭代題庫(kù)、擴(kuò)展領(lǐng)域，并配套更多真實(shí)世界評(píng)估，以觀察這些系統(tǒng)究竟能幫助科學(xué)家完成多少工作。

奧賽金牌不等于一流科學(xué)家，AI要成為真正能獨(dú)當(dāng)一面的一流科學(xué)家，還有很長(zhǎng)的路要走。

參考資料：

https://openai.com/index/frontierscience/

本文來(lái)自微信公眾號(hào)“新智元”，作者：新智元，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

藍(lán)瓶咖啡收購(gòu)傳聞背后的資本博弈：雀巢瘦身與瑞幸的高端化野心

暴漲近7倍！國(guó)產(chǎn)GPU龍頭沐曦股份今日上市國(guó)產(chǎn)算力萬(wàn)億市值時(shí)代開(kāi)啟

GPU壟斷松動(dòng)，非GPU芯片勢(shì)力崛起重塑全球算力格局

中美衛(wèi)星近距事件引關(guān)注：SpaceX的太空布局與中國(guó)應(yīng)對(duì)

江豐電子姚力軍再啟新篇，同創(chuàng)普潤(rùn)沖擊IPO

項(xiàng)目推薦