曾以安全為核心的AI巨頭,悄然松動了安全承諾
兩年前,若問AI行業(yè)內(nèi)哪家公司最重視安全,十有八九會提及Anthropic。
這家由前OpenAI核心成員創(chuàng)立的企業(yè),一直將“安全優(yōu)先”作為核心品牌標(biāo)簽。其官方文件中明確承諾:當(dāng)AI能力達到特定危險門檻時,公司將主動暫停訓(xùn)練,直至安全措施完善。
這份文件名為《負責(zé)任擴展政策》(Responsible Scaling Policy,RSP)。Anthropic聯(lián)合創(chuàng)始人兼CEO Dario Amodei曾多次公開表示,這是他們區(qū)別于其他AI公司的根本所在:不求最快,但求最負責(zé)任。

然而近日,這一切悄然改變。
01 政策更新,關(guān)鍵承諾消失
當(dāng)?shù)貢r間2月24日,Anthropic低調(diào)發(fā)布RSP第三版(RSP 3.0)。
與前兩版相比,此次更新的關(guān)鍵變化是,那條被視為“硬性紅線”的暫停訓(xùn)練承諾從文件中消失了。
原政策邏輯清晰:一旦模型能力觸及預(yù)設(shè)危險閾值(如具備協(xié)助生物武器研發(fā)的科學(xué)理解能力),公司必須暫停新模型訓(xùn)練,直到相應(yīng)安全防護措施就緒。這是一種“if-then”的條件約束機制,如同給自己上了一道鎖。
2023年RSP中“暫停訓(xùn)練承諾”原文為:“The ASL framework implicitly requires us to temporarily pause training more powerful models if we are unable to put the required safety measures in place to safely handle the capabilities of the next AI Safety Level.”(核心是若無法及時部署所需安全措施,必須暫時暫停訓(xùn)練更強模型)
新版本中,這道鎖不見了。
在2026年2月24日的博客及RSP 3.0正文中,“暫停訓(xùn)練”的承諾不再出現(xiàn),取而代之的是以前沿安全路線圖、風(fēng)險報告與外部評審為核心的透明度機制。
這意味著一套更“靈活”的框架:前沿安全路線圖、風(fēng)險報告機制、非約束性公開承諾。簡單來說,鎖變成了旋轉(zhuǎn)門,從“做不到就不許動”轉(zhuǎn)變?yōu)椤?/strong>邊做邊說、透明披露”。
Anthropic對此次調(diào)整給出了解釋:
“We are restructuring our Responsible Scaling Policy into two components:
(1) commitments we believe Anthropic can uphold regardless of what others do, and
(2)a more ambitious set of recommendations that would require coordinated action across industry and government.”
以及:
“As we approach higher AI Safety Levels, it becomes increasingly difficult to specify in advance the exact safeguards that will be required.”
“我們正在將《負責(zé)任擴展政策》重構(gòu)為兩個部分:
1)我們認為無論其他機構(gòu)如何行動,Anthropic都能自行履行的承諾;
2)一套更具雄心的建議方案,其落實需要行業(yè)與政府的協(xié)調(diào)行動。
隨著我們逐步接近更高等級的AI安全級別,事先精確界定所需的具體安全防護措施將愈發(fā)困難。”
簡言之,Anthropic發(fā)現(xiàn)原設(shè)定的能力閾值“比預(yù)期更模糊”。模型能力是連續(xù)增長的,不會突然“越過”清晰紅線。既然邊界本就模糊,剛性暫停機制便失去了可操作性。
這一解釋有一定道理,但問題在于:若邊界本就模糊,為何兩年前要以此承諾為“招牌”,又為何偏偏在此時修改?
02 OpenAI也曾悄悄修改使命表述
無獨有偶,OpenAI也有類似動作。
OpenAI 2024年度IRS表格(990表)于2025年11月公開,覆蓋2024財年。在這份文件中,“safely”一詞首次從使命陳述中消失。
舊版本使命為:構(gòu)建安全的、造福全人類的通用人工智能,不受財務(wù)回報需求約束。
新版本刪掉了“safely(安全地)”一詞,變?yōu)椋捍_保通用人工智能造福全人類。
有人認為這是小題大做,一個副詞的刪改無需敏感。但也有評論指出,OpenAI從非營利機構(gòu)轉(zhuǎn)型為“封頂利潤公司”時,“安全”是說服外界自己未迷失的最后防線。
如今這道防線也撤了,底線何在?
03 資本與競爭壓力下的妥協(xié)?
將兩件事放在一起看,兩家競爭對手的動作出奇一致。
在RSP 3.0發(fā)布兩周前,Anthropic宣布完成300億美元融資,估值升至約3800億美元。據(jù)媒體報道,OpenAI也在敲定新一輪融資,估值或高達8300億美元。這兩家公司已不再是靠信念驅(qū)動的AI研究機構(gòu),而是背負巨大市值預(yù)期的商業(yè)實體。
在這樣的體量下,“暫停訓(xùn)練”意味著暫停產(chǎn)品迭代、商業(yè)落地和估值增長預(yù)期。Anthropic首席科學(xué)家Jared Kaplan的話或許最能體現(xiàn)這種現(xiàn)實壓力:“如果競爭對手飛速前進,我們單方面承諾暫停訓(xùn)練沒有意義?!?/p>
AI競賽已不只是頭部公司間的商業(yè)博弈,開源社區(qū)、各國都在快速推進,沒有哪家公司能靠“先暫?!睋Q取全行業(yè)同步冷靜。
Anthropic在官方說明中也坦承,最初設(shè)想的“由我們設(shè)立安全標(biāo)準(zhǔn),其他公司跟進”并未完全實現(xiàn)。盡管OpenAI和Google DeepMind建立了類似框架,但更多是形式對標(biāo),而非實質(zhì)約束。
更重要的是,監(jiān)管環(huán)境也在變化。Anthropic在文件中明確提到,當(dāng)前政治氣候?qū)ΡO(jiān)管不友好,政府行動遲緩,企業(yè)不愿單方面承擔(dān)安全成本。
這是一個現(xiàn)實且令人不安的問題。
04 “透明披露”能否替代“硬性約束”?
Anthropic一再強調(diào),RSP 3.0并非放棄安全,而是換了更成熟的方式,即從剛性承諾轉(zhuǎn)向透明機制。
這種說法有一定道理。原版本確實存在缺陷:能力閾值模糊,暫停時機難判斷,執(zhí)行層面有模糊地帶。將不可執(zhí)行的承諾繼續(xù)保留,除維持公關(guān)形象外,實際意義有限。
RSP 3.0保留了諸多實質(zhì)性安全機制。例如,Anthropic已于2025年5月正式激活A(yù)SL-3級防護標(biāo)準(zhǔn),針對化學(xué)和生物武器風(fēng)險的專項防護措施,包括一套復(fù)雜的輸入輸出分類器,用于攔截可能被濫用的內(nèi)容。這項工作真實存在,并非口號。
但批評者的擔(dān)憂也有其合理性。
硬性約束與透明披露本質(zhì)不同。
硬性約束是“做不到就必須停止”,價值在于提前鎖死選項,讓決策者在壓力面前無路可退。透明披露是“你可以知道我在做什么”,依賴外部輿論壓力和內(nèi)部自律。
問題在于:當(dāng)資本壓力足夠大、競爭焦慮足夠強時,透明披露能否真正約束實際行為?
05 誰來為AI設(shè)安全紅線?
有一種更悲觀的解讀:2026年,AI安全正越來越成為一種公關(guān)語言。
幾乎所有主流AI公司都有“安全框架”“負責(zé)任使用政策”和聽起來嚴(yán)肅的承諾文件。但這些文件是為了約束自己,還是為了告訴監(jiān)管機構(gòu)和公眾“我們已在管理,是負責(zé)任的,你們無需‘操心’”?
Anthropic和OpenAI有權(quán)修改自己的“安全框架”,在真正的商業(yè)壓力面前,安全承諾的邊界是可以移動的。
回頭看2023年Anthropic發(fā)布RSP 1.0時的邏輯,其實預(yù)設(shè)了一個重要前提:政府和社會會跟上。
原設(shè)想是:企業(yè)率先設(shè)立安全標(biāo)準(zhǔn),推動行業(yè)形成自律共識,同時為監(jiān)管機構(gòu)提供參考藍本,最終形成政府層面的多邊協(xié)調(diào)機制。
這條路并未完全走通。
監(jiān)管跟不上技術(shù)和商業(yè)的變化,安全共識在消散,競爭在加速。企業(yè)單方面守住安全紅線的成本越來越高,外部約束機制尚未建立。
在這個真空期,沒人能給出清晰答案:若企業(yè)不再設(shè)紅線,誰來設(shè)?
Anthropic的聯(lián)合創(chuàng)始人正是因擔(dān)心AI失控離開OpenAI,創(chuàng)立了這家公司。他們的初心是成為AI競賽中“負責(zé)任的參與者”。
兩年多過去,他們?nèi)栽谧龃罅繃?yán)肅的安全研究,內(nèi)部仍有一批真正在意這些問題的工程師和研究員在推動。RSP 3.0也保留了相當(dāng)多的實質(zhì)性安全機制。
但底線會越來越低嗎?
在一個沒人愿意踩剎車的賽道上,所有人都在加速,這場比賽會駛向何方,無人知曉。
本文來自微信公眾號“騰訊科技”,作者:值得關(guān)注的,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com


