黃仁勛稱其為“災難”:DeepSeek在華為芯片上成功運行
DeepSeek V4的API定價已經(jīng)公布——Flash版輸入1元/百萬token,Pro版12元。與此同時,GPT - 5.4和Claude Opus 4.6的調用成本大約是它的50倍。
這不是便宜一半,而是便宜50倍。這個數(shù)字大到讓人感覺它們似乎不在同一場競爭中。
但價格本身并非重點?;仡櫱叭a品——V2的訓練成本是GPT - 4 Turbo的1/70,V3是GPT - 4的1/14,R1是GPT - 4o的1/20。DeepSeek勾勒出了一條急劇下降的成本曲線。就連奧爾特曼自己也表示,AI成本每12個月下降10倍,比摩爾定律還要迅猛。
V4還帶來了一個更大的變數(shù):它在技術報告中明確將華為昇騰NPU與英偉達GPU并列進行驗證,是首個在昇騰平臺上原生適配的前沿大模型。黃仁勛在播客中稱,這件事是“災難性的”。英偉達的護城河并非GPU算力本身,而是CUDA作為默認起點的軟件生態(tài)地位。
價格便宜50倍,還能在昇騰上運行。DeepSeek到底是怎么做到的?這條效率路線走到終點,又意味著什么?
50倍的價格差
DeepSeek V4的API定價如下:Flash版輸入1元/百萬token,輸出2元;Pro版輸入12元,輸出24元。在緩存命中的情況下,F(xiàn)lash版輸入價格可低至0.2元/百萬token。
同期,GPT - 5.4和Claude Opus 4.6的API調用成本大約是V4的50倍。
V4基于MIT協(xié)議完全開源,發(fā)布時間恰好趕在OpenAI上線新Agent功能的前一天。貼身競爭的意味十分明顯。
但V4的定價并非一次孤立的降價行為。回顧前三代產品,DeepSeek呈現(xiàn)出一條陡峭的成本下降曲線。
2024年初,V2的訓練成本降至GPT - 4 Turbo的1/70,這得益于MLA架構和MoE稀疏架構的組合創(chuàng)新。同年年底,V3的訓練成本為560萬美元,相比GPT - 4的7800萬美元降至1/14。緊接著,R1的訓練成本為600萬美元,與GPT - 4o約1.2億美元的訓練開支相比,壓至1/20。
三代產品,每一代都在成本上降低一個數(shù)量級。這不是一次促銷,而是一條持續(xù)下降的曲線。

一年前,R1發(fā)布當天,英偉達單日市值蒸發(fā)近6000億美元,“DeepSeek時刻”成為整個科技圈的記憶點。V4則將這個故事又向前推進了一步。
當然,這條曲線并非沒有爭議。谷歌DeepMind負責人哈薩比斯直言DeepSeek的成本數(shù)據(jù)“被報小了,并且有些誤導性”,聲稱該公司“只公布了最終訓練階段的成本,而這只是總成本的一小部分”。分析機構SemiAnalysis進一步估算,DeepSeek在硬件上的花費遠高于5億美元,論文中600萬美元的數(shù)字只是預訓練運行的GPU成本。
即便DeepSeek的硬件投入超過5億美元,這也是一筆包含芯片采購在內的資本開支;而GPT - 4o約1.2億美元的訓練成本,指的是單次訓練運行的算力費用,兩者的統(tǒng)計口徑并不相同。不過,即便將OpenAI背后數(shù)十億美元的算力基礎設施投入也納入考量,DeepSeek在單次訓練成本上的優(yōu)勢依然是數(shù)量級的。爭議的焦點恰恰證明了一個結論:即便成本被低估,它仍然便宜得驚人。
這不僅僅是DeepSeek一家的故事。從GPT - 4到GPT - 4o,OpenAI自身的每token價格也下降了約150倍。即便降了這么多,DeepSeek的API價格仍然比OpenAI便宜95%。
奧爾特曼在2025年2月的文章中明確寫道:使用特定水平AI的成本每12個月下降約10倍。摩爾定律曾以每18個月翻一倍的速度改變世界,而AI成本的下降“更加強勁”。
當你的競爭對手親口為你的敘事提供論證時,這個敘事就不再僅僅是敘事了。AI行業(yè)正在經(jīng)歷屬于自己的摩爾定律,而DeepSeek,是這條定律最積極的踐行者。
定律背后的機制是什么?三代產品的成本為何能持續(xù)大幅下降?答案就藏在DeepSeek的技術路線中。
從算法延伸至芯片
V3訓練僅使用了2048張H800。同級別模型的訓練集群動輒需要上萬張卡,但DeepSeek用這2048張卡就訓練出了可與GPT - 4對標的模型,依靠的是一項當時沒人敢在大規(guī)模訓練中真正應用的技術:FP8混合精度。
英偉達的Transformer Engine早就支持FP8訓練,但在V3之前,沒有開源大模型真正在訓練階段成功運行FP8。DeepSeek成為第一個吃螃蟹的,通過細粒度量化策略,將激活值按1x128的tile量化、權重按128x128的block量化,在不損失模型質量的前提下大幅降低了計算成本。
武器不在于數(shù)量多,而在于會使用。2048張卡就能完成別人上萬張卡的工作。
V4在這條路上又向前邁進了一大步,直接對注意力機制本身進行了改造。
核心是兩種全新的注意力結構。CSA(壓縮稀疏注意力)將每4個token的KV緩存壓縮成1個條目,再通過一個名為Lightning Indexer的篩選器從所有壓縮塊中只挑選出最相關的512個進行計算。
HCA(層次化壓縮注意力)更為激進,壓縮比達到128倍,直接跳過篩選環(huán)節(jié)進行全量計算以捕捉全局結構。兩種注意力交錯配置,再配合滑動窗口保留最近128個token的原始KV,多管齊下降低了百萬token長文本的推理開銷。
深度求索方面直接表示:“從現(xiàn)在開始,百萬上下文將是DeepSeek所有官方服務的標配?!币郧鞍偃ftoken是各家發(fā)布會上用來展示技術的指標,現(xiàn)在則成為了默認參數(shù)。
當技術成本低到可以成為默認選項時,它就不再是競爭優(yōu)勢,而是基礎設施的一部分。
效果直接體現(xiàn)在基準分數(shù)上。
V4 - Pro,1.6萬億參數(shù)、激活49B,在100萬token上下文下處理一個新token所需的算力僅為V3.2的27%,KV緩存只占10%。資源消耗減少到原來的四分之一。
而頂配的Pro Max呢?在知識基準SimpleQA中獲得57.9分,比開源最佳成績高出20個點;在數(shù)學競賽Putnam 2025中取得120/120的滿分;在編程競賽Codeforces中在人類選手中排名第23。三個完全不同類型的任務,同時達到了頂尖水平。

算力使用了四分之一,成績卻沖到了第一。這不是簡單的降本增效,而是采用了一套全新的運行邏輯。
但V4最值得關注的變數(shù),不在算法層面。
V4技術報告3.1節(jié)有這樣一句話:“我們在NVIDIA GPU和華為昇騰NPU兩個平臺上驗證了這個細粒度的專家并行方案?!眱蓚€平臺并列,寫在驗證結論里。這不是“兼容適配”的表述,而是“原生支持”的姿態(tài)。
這套方案的核心是將MoE的通信和計算切成更細的顆粒按“波”調度,通用推理加速1.50到1.73倍,強化學習長尾小批次最高加速1.96倍。昇騰已經(jīng)從備選項變成了并列選項。
遷移過程并不輕松。據(jù)接近DeepSeek的工程師透露,V4從CUDA到CANN的適配過程中,最耗時的不是算子重寫,而是精度對齊。要讓同樣的模型在英偉達和昇騰上跑出完全一致的數(shù)學結果,需要反復調試。
此前使用910C訓練時,DeepSeek遇到過問題:1024卡集群梯度同步超時、CANN舊版缺少關鍵算子,穩(wěn)定性一度不足。950PR針對性地彌補了這些短板:芯片間帶寬翻了3倍,CANN Next內置了FlashAttention和PagedAttention算子。
真正的技術遷移不是更換芯片品牌,而是讓兩套完全不同的硬件跑出相同的數(shù)學結果。DeepSeek打通了這條路,為后來者降低了一大截門檻。
華為的策略也很明確。昇騰950PR在FP4精度下算力達到2 PFLOPS,芯片間互聯(lián)帶寬2TB/s。CANN Next的定位不是推倒重來,而是無縫替換:新增的SIMT編程模型與CUDA高度對標,讓開發(fā)者沿用CUDA的編程習慣,最終編譯出昇騰優(yōu)化程序。
黃仁勛在帕特爾的播客專訪中說出了英偉達真正擔心的事情。不是中國做出了優(yōu)秀的模型,而是優(yōu)秀模型不再以CUDA為默認優(yōu)化起點。
英偉達的護城河從來不是GPU本身的算力,而是CUDA作為“事實標準”運行了近二十年的軟件生態(tài)地位。幾乎所有主流AI框架、算子庫、開源模型的首發(fā)優(yōu)化,都將CUDA作為默認起點。DeepSeek在昇騰上完成原生適配,恰恰打破了這條鏈條的起點:至少存在一條真實、可運行、被頂級模型驗證過的非CUDA路徑。
當世界上最好的開源模型證明了一條完整的非CUDA路徑,二十年的生態(tài)壁壘就出現(xiàn)了第一道裂縫。效率路線從算法延伸到芯片,觸及了英偉達最害怕的領域。
算力成為公共資源
中信建投在V4發(fā)布后的研報中進行了這樣的劃分:R1回答的問題是“中國能不能做出世界級模型”,V4回答的是兩個更具體的問題——“能不能在算力封鎖下持續(xù)發(fā)展”,以及“大模型能不能成為能盈利的企業(yè)級產品”。
第一個問題,學術界已經(jīng)給出了答案。2025年9月,R1論文登上Nature封面,8位專家逐條審稿,這是全球首個通過頂級學術期刊同行評審的主流大模型?!爸袊懿荒茏觥边@個問題已經(jīng)有了定論。
第二個問題才是V4真正要回答的。
巨頭們正用最傳統(tǒng)的方式搶占市場。2026年春節(jié)期間,字節(jié)、阿里、騰訊三家燒掉近百億元進行拉新。千問豪擲30億元送“奶茶大禮包”,豆包登上央視春晚,元寶拋出10億元現(xiàn)金紅包。
QuestMobile數(shù)據(jù)顯示,截至2026年2月,豆包活躍用戶1.03億、千問3245萬,DeepSeek以2477萬用戶排在第三。
但DeepSeek面臨的困境與巨頭不同。日活從1.2億飆升至約2億,半年增長超67%,而算力僅增加了約8.3%。日均算力成本超千萬元,今年已經(jīng)三次大規(guī)模宕機,每次都發(fā)生在晚間用戶高峰期。
用戶增長67%,算力增長8.3%。這個差距就是DeepSeek必須走效率路線的原因,也是V4必須在昇騰上運行的原因。
融資信號也在發(fā)生變化。2025年初DeepSeek最熱門的時候,梁文鋒拒絕了所有投資機構。他曾提出類似OpenAI與微軟投資協(xié)議的回報上限條款,沒有任何機構接受,此后再未與投資人見面。
一年后的4月17日,DeepSeek傳出至少100億美元估值的融資消息;五天后,路透社報道阿里和騰訊正在洽談投資,估值已被抬到200億美元以上。一位接近DeepSeek的投資人表示:“這不是一個你出得起價就能進入的項目,在梁文鋒的篩選標準中,錢是最不重要的那一項?!?/p>
一年前拒絕所有人,一年后所有人爭相進入。改變的不是梁文鋒的態(tài)度,而是DeepSeek的市場地位。它從技術驗證期走到了商業(yè)化的轉折點。
DeepSeek“換芯”昇騰引發(fā)的連鎖反應正在擴散。阿里、字節(jié)、騰訊已向華為批量采購昇騰950PR,訂單合計數(shù)十萬顆,集中采購推動芯片價格近幾周上漲20%。當行業(yè)龍頭用實際行動跟進非CUDA路徑時,效率路線就從一家公司的選擇變成了行業(yè)共識。
商業(yè)化數(shù)據(jù)也在印證這個轉折點。智譜2025年全年收入7.24億元,同比增長132%,MaaS API平臺年度經(jīng)常性收入達到17億元,同比增長了60倍。大模型正在從燒錢的概念變成賺錢的生意。
當行業(yè)中開始有人盈利時,“AI泡沫”的說法就該改變了。
米勒在《巴倫》雜志的判斷提供了另一個視角。他說,美中之間的差距不在于人才、不在于創(chuàng)新,而在于訓練時投入的運算資源。這是典型的存量思維,誰的卡多誰就贏。
但DeepSeek采用的是增量思維:讓每張卡的產出更高。V4在昇騰上運行,就是用效率將存量差距變成了一個可以繞開的問題。
而政策信號,可能是三重信號中最值得玩味的。
工信部發(fā)布了《普惠算力賦能中小企業(yè)發(fā)展專項行動》,目標是到2028年底顯著降低中小企業(yè)使用算力的門檻。文件中出現(xiàn)了兩個概念:“算力銀行”和“算力超市”。企業(yè)可以把閑置算力存進去,按需取用,按卡時、核時甚至Token來計費。
當政策開始用公共資源的邏輯來管理算力時,前沿智能就真的在成為基礎設施。DeepSeek從算法層到芯片層持續(xù)降低成本,政策從頂層將算力變成公共服務。
一個從供給側降低成本,一個從制度側實現(xiàn)普惠。兩條線交匯的那個點,就是AI不再是軍備競賽的那一天。
本文來自微信公眾號“NEXT趨勢”,作者:方遠,36氪經(jīng)授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



