欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

97.6%近乎滿分!Claude最強模型發(fā)布卻暫不開放:安全風險成關鍵考量

04-10 06:39
地球最強AI模型,何時能為公眾所用?

昨夜,Anthropic最新推出的Claude Mythos(神話)預覽版,再度引爆整個AI領域。


Claude Mythos預覽版被官方稱作「迄今為止最強大的AI模型」,其能力達到全新層級,甚至大幅超越了此前Anthropic自家的最強模型Claude Opus 4.6。


從目前呈現(xiàn)的數(shù)據(jù)與結(jié)果來看,這并非營銷噱頭,而是真正實現(xiàn)了質(zhì)的飛躍。首先,在幾乎所有公開基準測試中,Claude Mythos預覽版均位居榜首,更令人驚嘆的是其進步幅度:


面向軟件工程的SWE-bench Verified測試,從Opus 4.6的80.8%飆升至93.9%;SWE-bench Pro測試則從53.4%躍升至77.8%;在高難度數(shù)學推理測試USAMO 2026中,成績更是從42.3%直接提升至97.6%——近乎滿分。



可以說,它是目前全球范圍內(nèi)最強大的AI模型。


這還只是部分「小」案例,更令人震撼的是,Anthropic在過去幾周的實際測試中發(fā)現(xiàn),Mythos預覽版能在主流操作系統(tǒng)與主流瀏覽器中自主識別出數(shù)千個高危零日漏洞(zero-day),涉及Linux內(nèi)核、OpenBSD、Firefox瀏覽器、FFmpeg等核心組件。


其中不少漏洞連人類安全團隊審核十幾年甚至二十年都未發(fā)現(xiàn),例如在以安全性著稱的OpenBSD系統(tǒng)中,Mythos預覽版就找到了一個隱藏27年未被察覺的遠程崩潰漏洞。Anthropic官方甚至明確表示,Mythos預覽版在網(wǎng)絡安全能力上遠超其他任何AI模型。


這并非一個「更好用的Claude」,它在代碼編寫、推理分析、網(wǎng)絡安全等方面,都達到了前所未有的自主性與深度。開發(fā)者們本期待著「徹底解放生產(chǎn)力」,但結(jié)果卻是:


Anthropic直接關閉了公眾使用的大門。


沒錯,至少目前,Claude Mythos預覽版不對公眾開放。根據(jù)官方說法,Mythos預覽版目前僅用于「防御性網(wǎng)絡安全」,且只有12家合作伙伴(包括AWS、蘋果、博通、思科、CrowdStrike、Google、摩根大通、Linux基金會、微軟、英偉達、Palo Alto Networks等)以及40多個構(gòu)建或維護關鍵軟件基礎設施的組織,擁有其訪問和使用權(quán)限。



這正是Anthropic同步推出的Project Glasswing(玻璃翼計劃)。Anthropic甚至提供了1億美元的額度,支持40多家額外組織使用Mythos預覽版維護開源生態(tài)的「基礎架構(gòu)」。


但為何一個「最強模型」要如此「藏著掖著」,不向公眾開放呢?


能力過強,需平穩(wěn)過渡


首先需要明確的是,Claude Mythos預覽版或類似水平的超級大模型,未來一定會向公眾開放。Anthropic官方表述得十分直白:


「雖然我們目前沒有向公眾開放Claude Mythos預覽版的計劃,但最終目標是讓用戶能夠安全地大規(guī)模部署Mythos級別的模型——這不僅是為了網(wǎng)絡安全,也是為了這類功能強大的模型將帶來的無數(shù)其他益處?!?/p>



正如官方博客字里行間所透露的,這個模型「過于危險」。


去年年底,Google Threat Intelligence Group(GTIG)就發(fā)現(xiàn)了PromptFlux和PromptSteal兩個真實案例:它們在運行時連接商業(yè)大模型(如Gemini API)時,會動態(tài)生成惡意腳本、實時混淆自身代碼,還能根據(jù)目標環(huán)境「現(xiàn)場」創(chuàng)建新功能,完全繞過傳統(tǒng)簽名檢測發(fā)起攻擊。


這并非個例。根據(jù)市場研究機構(gòu)SQmagazine的報告,全球報道的AI驅(qū)動網(wǎng)絡攻擊數(shù)量增長了47%,預計超過2800萬起。


再看Mythos預覽版,其漏洞查找能力已初露鋒芒。尤其對比此前Claude最強模型Opus 4.6自主發(fā)現(xiàn)并利用漏洞的成功率接近0%,Mythos預覽版的表現(xiàn)堪稱「逆天」。


以Mozilla Firefox 147 JavaScript引擎中已修復的漏洞為例,Claude Opus 4.6在利用該漏洞時嘗試了數(shù)百次,僅成功2次;而Claude Mythos預覽版在相同測試中成功利用漏洞181次。



此外,從測試報告來看,在過去幾周的內(nèi)部紅隊測試中,Mythos預覽版展現(xiàn)出的攻擊能力已遠超人類頂尖安全專家。它不僅「能找漏洞」,還能自主發(fā)現(xiàn)、鏈式利用數(shù)千個高危零日漏洞。


眾所周知,黑客分為白帽與黑帽。白帽黑客發(fā)現(xiàn)安全漏洞后通常會提醒項目管理者,在開源項目中甚至會主動修補;但黑帽黑客則可能利用漏洞攻擊系統(tǒng)。


Mythos預覽版兼具攻擊與防御能力,但其攻擊潛力大到令人擔憂。一旦落入別有用心之人手中,就能瞬間構(gòu)建起AI級別的攻擊鏈。Anthropic自己也承認,這并非普通的前沿模型,其通用能力已強大到能將網(wǎng)絡戰(zhàn)直接推向新維度。


計算機安全領域的攻防戰(zhàn)向來是「魔高一丈,道高一尺」,過去兩年圍繞AI大模型的安全攻防戰(zhàn)也是行業(yè)(尤其是大廠)關注的重點之一。國內(nèi)的字節(jié)跳動、螞蟻集團等企業(yè),近兩年也舉辦過類似的AI大模型攻防戰(zhàn),通過紅(攻擊方)、藍(防御方)對抗來發(fā)現(xiàn)并解決AI時代的安全挑戰(zhàn)。



不過Anthropic也指出,長遠來看,像Mythos預覽版這樣強大的語言模型更有利于「藍隊」進行防御。但短期內(nèi),如果開放公眾使用,Mythos預覽版很快會被攻擊者利用,以前所未有的效率攻擊當前全球網(wǎng)絡。關鍵問題在于,防御行為更被動,攻擊行為更主動,考慮到利益驅(qū)動,攻擊方更有動力積極使用Mythos預覽版這類模型。


因此,為實現(xiàn)「平穩(wěn)過渡」,Anthropic推出了「玻璃翼計劃」。


值得一提的是,該項目名稱靈感來源于廣泛分布在美洲的寬紋黑脈綃蝶,因其透明翅膀常被稱為「玻璃翼蝶」。盡管看似脆弱,但其翅膀能承載相當于自身體重40倍的重量。



「玻璃翼計劃」的邏輯很簡單:讓防御方先掌握這一「武器」,在攻擊方獲得同級別AI之前,先將漏洞全部修復,并學會基于先進AI的安全防御方法。


從這個角度看,Claude最強模型暫不向公眾開放是正確的選擇。不僅如此,即使從普通Claude用戶的角度出發(fā),暫時不開放Claude Mythos預覽版也是利大于弊。


最強模型不開放,Claude反而更易用?


許多人看到Mythos預覽版不開放,第一反應是失望:這么強大的模型,為何不讓大家使用?


但如果你是普通Claude用戶,或是每天依賴Claude Code編寫代碼、開展項目的開發(fā)者,可能會發(fā)現(xiàn)一個看似反直覺的事實:暫時不開放Mythos預覽版,對我們反而更有利。


先談談近期大家感受最明顯的痛點。


大約從今年2月起,Claude和Claude Code迎來了「史詩級性能下滑」。Reddit的r/ClaudeCode和r/ClaudeAI板塊中,相關吐槽帖子刷屏,有人直接發(fā)帖《4.6 Regression is real!》,有人抱怨「Claude Code在過去1.5到2天里變得很笨」。



還有開發(fā)者通過數(shù)據(jù)追蹤發(fā)現(xiàn),文件讀取次數(shù)從之前的6-7次降至僅2次左右,復雜任務中模型越來越「懶惰」,思考深度明顯變淺,經(jīng)常直接進行「edit-first」操作而非先調(diào)研。


AMD AI總監(jiān)Stella Laurenzo甚至公開表示,Claude Code變得「更笨、更懶」,無法信任它完成復雜工程任務。


Claude Code團隊成員Boris在Hacker News上回復稱,承認部分智能體(agentic)用例出現(xiàn)性能倒退,核心原因是2月引入的「redact-thinking」和Adaptive Thinking機制,讓模型自主決定思考時長,導致復雜任務的思考深度下降約67%。



類似的抱怨在X平臺也層出不窮,開發(fā)者吐槽Claude Code已退化成需要全程監(jiān)督的「實習生」。


為何會出現(xiàn)這種情況?


超大參數(shù)模型訓練的規(guī)律擺在眼前:每當大廠全力研發(fā)下一代「最強模型」時,都需要海量算力。Gemini在推出3.0/3.1版本前,2.5 Pro就多次被開發(fā)者吐槽靜默更新后性能下降,出現(xiàn)長上下文內(nèi)容遺忘、邏輯任務失敗率上升等問題;GPT-5發(fā)布前,4o也出現(xiàn)過輸出變短、變懶、復雜指令機械化等「降智」反饋。


算力是有限的,訓練Mythos這類全新層級的模型成本極高,只能從現(xiàn)有資源中「擠」出空間,通過動態(tài)負載均衡、自適應算力降低甚至輕度優(yōu)化等方式實現(xiàn),但結(jié)果就是用戶感受到的「變笨、變懶」。


此外,Claude Code用戶量增長遠超預期,基礎設施多次面臨壓力,而Mythos預覽版(內(nèi)部代號Capybara)的訓練和測試又需優(yōu)先占用頂級GPU。因此,當Mythos預覽版發(fā)布卻不向公眾開放時,無需擔心算力被進一步稀釋,導致Claude或Claude Code的質(zhì)量繼續(xù)下滑。


對普通Claude用戶而言,使用體驗反而會更穩(wěn)定。



另一方面,Anthropic通過「玻璃翼計劃」讓Mythos幫助大廠和開源項目修復漏洞,這些漏洞修復后最終也會間接惠及所有用戶。


等Anthropic將風險控制和基礎設施準備得更充分,再安全地大規(guī)模部署Mythos級模型時,普通用戶才能獲得真正穩(wěn)定、強大且不會頻繁「降智」的使用體驗,而非現(xiàn)在急于開放后,大家一同承受算力擠占的陣痛。


寫在最后


Claude Mythos預覽版的出現(xiàn),將一個殘酷卻現(xiàn)實的問題擺在所有人面前:AI越強大,風險就越真實。


當最強模型的攻擊能力已遠超當前防御體系時,Anthropic選擇「暫不開放」并非保守,而是為整個行業(yè)爭取時間,讓防守方先加固基礎,讓普通用戶先擁有相對穩(wěn)定的Claude體驗,而非一同卷入算力擠占和安全失控的混亂。


對大多數(shù)人而言,這或許就是當下最好的安排。


本文來自微信公眾號「雷科技」,作者:雷科技,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com