欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

黃仁勛稱其為“災難”：DeepSeek在華為芯片上成功運行

04-25 06:48

DeepSeek究竟是如何實現(xiàn)這一突破的？這條效率路線走向終局，又將帶來怎樣的影響？

DeepSeek V4的API定價已經(jīng)公布——Flash版輸入1元/百萬token，Pro版12元。與此同時，GPT - 5.4和Claude Opus 4.6的調用成本大約是它的50倍。

這不是便宜一半，而是便宜50倍。這個數(shù)字大到讓人感覺它們似乎不在同一場競爭中。

但價格本身并非重點?；仡櫱叭a品——V2的訓練成本是GPT - 4 Turbo的1/70，V3是GPT - 4的1/14，R1是GPT - 4o的1/20。DeepSeek勾勒出了一條急劇下降的成本曲線。就連奧爾特曼自己也表示，AI成本每12個月下降10倍，比摩爾定律還要迅猛。

V4還帶來了一個更大的變數(shù)：它在技術報告中明確將華為昇騰NPU與英偉達GPU并列進行驗證，是首個在昇騰平臺上原生適配的前沿大模型。黃仁勛在播客中稱，這件事是“災難性的”。英偉達的護城河并非GPU算力本身，而是CUDA作為默認起點的軟件生態(tài)地位。

價格便宜50倍，還能在昇騰上運行。DeepSeek到底是怎么做到的？這條效率路線走到終點，又意味著什么？

50倍的價格差

DeepSeek V4的API定價如下：Flash版輸入1元/百萬token，輸出2元；Pro版輸入12元，輸出24元。在緩存命中的情況下，F(xiàn)lash版輸入價格可低至0.2元/百萬token。

同期，GPT - 5.4和Claude Opus 4.6的API調用成本大約是V4的50倍。

V4基于MIT協(xié)議完全開源，發(fā)布時間恰好趕在OpenAI上線新Agent功能的前一天。貼身競爭的意味十分明顯。

但V4的定價并非一次孤立的降價行為。回顧前三代產品，DeepSeek呈現(xiàn)出一條陡峭的成本下降曲線。

2024年初，V2的訓練成本降至GPT - 4 Turbo的1/70，這得益于MLA架構和MoE稀疏架構的組合創(chuàng)新。同年年底，V3的訓練成本為560萬美元，相比GPT - 4的7800萬美元降至1/14。緊接著，R1的訓練成本為600萬美元，與GPT - 4o約1.2億美元的訓練開支相比，壓至1/20。

三代產品，每一代都在成本上降低一個數(shù)量級。這不是一次促銷，而是一條持續(xù)下降的曲線。

一年前，R1發(fā)布當天，英偉達單日市值蒸發(fā)近6000億美元，“DeepSeek時刻”成為整個科技圈的記憶點。V4則將這個故事又向前推進了一步。

當然，這條曲線并非沒有爭議。谷歌DeepMind負責人哈薩比斯直言DeepSeek的成本數(shù)據(jù)“被報小了，并且有些誤導性”，聲稱該公司“只公布了最終訓練階段的成本，而這只是總成本的一小部分”。分析機構SemiAnalysis進一步估算，DeepSeek在硬件上的花費遠高于5億美元，論文中600萬美元的數(shù)字只是預訓練運行的GPU成本。

即便DeepSeek的硬件投入超過5億美元，這也是一筆包含芯片采購在內的資本開支；而GPT - 4o約1.2億美元的訓練成本，指的是單次訓練運行的算力費用，兩者的統(tǒng)計口徑并不相同。不過，即便將OpenAI背后數(shù)十億美元的算力基礎設施投入也納入考量，DeepSeek在單次訓練成本上的優(yōu)勢依然是數(shù)量級的。爭議的焦點恰恰證明了一個結論：即便成本被低估，它仍然便宜得驚人。

這不僅僅是DeepSeek一家的故事。從GPT - 4到GPT - 4o，OpenAI自身的每token價格也下降了約150倍。即便降了這么多，DeepSeek的API價格仍然比OpenAI便宜95%。

奧爾特曼在2025年2月的文章中明確寫道：使用特定水平AI的成本每12個月下降約10倍。摩爾定律曾以每18個月翻一倍的速度改變世界，而AI成本的下降“更加強勁”。

當你的競爭對手親口為你的敘事提供論證時，這個敘事就不再僅僅是敘事了。AI行業(yè)正在經(jīng)歷屬于自己的摩爾定律，而DeepSeek，是這條定律最積極的踐行者。

定律背后的機制是什么？三代產品的成本為何能持續(xù)大幅下降？答案就藏在DeepSeek的技術路線中。

從算法延伸至芯片

V3訓練僅使用了2048張H800。同級別模型的訓練集群動輒需要上萬張卡，但DeepSeek用這2048張卡就訓練出了可與GPT - 4對標的模型，依靠的是一項當時沒人敢在大規(guī)模訓練中真正應用的技術：FP8混合精度。

英偉達的Transformer Engine早就支持FP8訓練，但在V3之前，沒有開源大模型真正在訓練階段成功運行FP8。DeepSeek成為第一個吃螃蟹的，通過細粒度量化策略，將激活值按1x128的tile量化、權重按128x128的block量化，在不損失模型質量的前提下大幅降低了計算成本。

武器不在于數(shù)量多，而在于會使用。2048張卡就能完成別人上萬張卡的工作。

V4在這條路上又向前邁進了一大步，直接對注意力機制本身進行了改造。

核心是兩種全新的注意力結構。CSA（壓縮稀疏注意力）將每4個token的KV緩存壓縮成1個條目，再通過一個名為Lightning Indexer的篩選器從所有壓縮塊中只挑選出最相關的512個進行計算。

HCA（層次化壓縮注意力）更為激進，壓縮比達到128倍，直接跳過篩選環(huán)節(jié)進行全量計算以捕捉全局結構。兩種注意力交錯配置，再配合滑動窗口保留最近128個token的原始KV，多管齊下降低了百萬token長文本的推理開銷。

深度求索方面直接表示：“從現(xiàn)在開始，百萬上下文將是DeepSeek所有官方服務的標配?！币郧鞍偃ftoken是各家發(fā)布會上用來展示技術的指標，現(xiàn)在則成為了默認參數(shù)。

當技術成本低到可以成為默認選項時，它就不再是競爭優(yōu)勢，而是基礎設施的一部分。

效果直接體現(xiàn)在基準分數(shù)上。

V4 - Pro，1.6萬億參數(shù)、激活49B，在100萬token上下文下處理一個新token所需的算力僅為V3.2的27%，KV緩存只占10%。資源消耗減少到原來的四分之一。

而頂配的Pro Max呢？在知識基準SimpleQA中獲得57.9分，比開源最佳成績高出20個點；在數(shù)學競賽Putnam 2025中取得120/120的滿分；在編程競賽Codeforces中在人類選手中排名第23。三個完全不同類型的任務，同時達到了頂尖水平。

算力使用了四分之一，成績卻沖到了第一。這不是簡單的降本增效，而是采用了一套全新的運行邏輯。

但V4最值得關注的變數(shù)，不在算法層面。

V4技術報告3.1節(jié)有這樣一句話：“我們在NVIDIA GPU和華為昇騰NPU兩個平臺上驗證了這個細粒度的專家并行方案?！眱蓚€平臺并列，寫在驗證結論里。這不是“兼容適配”的表述，而是“原生支持”的姿態(tài)。

這套方案的核心是將MoE的通信和計算切成更細的顆粒按“波”調度，通用推理加速1.50到1.73倍，強化學習長尾小批次最高加速1.96倍。昇騰已經(jīng)從備選項變成了并列選項。

遷移過程并不輕松。據(jù)接近DeepSeek的工程師透露，V4從CUDA到CANN的適配過程中，最耗時的不是算子重寫，而是精度對齊。要讓同樣的模型在英偉達和昇騰上跑出完全一致的數(shù)學結果，需要反復調試。

此前使用910C訓練時，DeepSeek遇到過問題：1024卡集群梯度同步超時、CANN舊版缺少關鍵算子，穩(wěn)定性一度不足。950PR針對性地彌補了這些短板：芯片間帶寬翻了3倍，CANN Next內置了FlashAttention和PagedAttention算子。

真正的技術遷移不是更換芯片品牌，而是讓兩套完全不同的硬件跑出相同的數(shù)學結果。DeepSeek打通了這條路，為后來者降低了一大截門檻。

華為的策略也很明確。昇騰950PR在FP4精度下算力達到2 PFLOPS，芯片間互聯(lián)帶寬2TB/s。CANN Next的定位不是推倒重來，而是無縫替換：新增的SIMT編程模型與CUDA高度對標，讓開發(fā)者沿用CUDA的編程習慣，最終編譯出昇騰優(yōu)化程序。

黃仁勛在帕特爾的播客專訪中說出了英偉達真正擔心的事情。不是中國做出了優(yōu)秀的模型，而是優(yōu)秀模型不再以CUDA為默認優(yōu)化起點。

英偉達的護城河從來不是GPU本身的算力，而是CUDA作為“事實標準”運行了近二十年的軟件生態(tài)地位。幾乎所有主流AI框架、算子庫、開源模型的首發(fā)優(yōu)化，都將CUDA作為默認起點。DeepSeek在昇騰上完成原生適配，恰恰打破了這條鏈條的起點：至少存在一條真實、可運行、被頂級模型驗證過的非CUDA路徑。

當世界上最好的開源模型證明了一條完整的非CUDA路徑，二十年的生態(tài)壁壘就出現(xiàn)了第一道裂縫。效率路線從算法延伸到芯片，觸及了英偉達最害怕的領域。

算力成為公共資源

中信建投在V4發(fā)布后的研報中進行了這樣的劃分：R1回答的問題是“中國能不能做出世界級模型”，V4回答的是兩個更具體的問題——“能不能在算力封鎖下持續(xù)發(fā)展”，以及“大模型能不能成為能盈利的企業(yè)級產品”。

第一個問題，學術界已經(jīng)給出了答案。2025年9月，R1論文登上Nature封面，8位專家逐條審稿，這是全球首個通過頂級學術期刊同行評審的主流大模型?！爸袊懿荒茏觥边@個問題已經(jīng)有了定論。

第二個問題才是V4真正要回答的。

巨頭們正用最傳統(tǒng)的方式搶占市場。2026年春節(jié)期間，字節(jié)、阿里、騰訊三家燒掉近百億元進行拉新。千問豪擲30億元送“奶茶大禮包”，豆包登上央視春晚，元寶拋出10億元現(xiàn)金紅包。

QuestMobile數(shù)據(jù)顯示，截至2026年2月，豆包活躍用戶1.03億、千問3245萬，DeepSeek以2477萬用戶排在第三。

但DeepSeek面臨的困境與巨頭不同。日活從1.2億飆升至約2億，半年增長超67%，而算力僅增加了約8.3%。日均算力成本超千萬元，今年已經(jīng)三次大規(guī)模宕機，每次都發(fā)生在晚間用戶高峰期。

用戶增長67%，算力增長8.3%。這個差距就是DeepSeek必須走效率路線的原因，也是V4必須在昇騰上運行的原因。

融資信號也在發(fā)生變化。2025年初DeepSeek最熱門的時候，梁文鋒拒絕了所有投資機構。他曾提出類似OpenAI與微軟投資協(xié)議的回報上限條款，沒有任何機構接受，此后再未與投資人見面。

一年后的4月17日，DeepSeek傳出至少100億美元估值的融資消息；五天后，路透社報道阿里和騰訊正在洽談投資，估值已被抬到200億美元以上。一位接近DeepSeek的投資人表示：“這不是一個你出得起價就能進入的項目，在梁文鋒的篩選標準中，錢是最不重要的那一項?！?/p>

一年前拒絕所有人，一年后所有人爭相進入。改變的不是梁文鋒的態(tài)度，而是DeepSeek的市場地位。它從技術驗證期走到了商業(yè)化的轉折點。

DeepSeek“換芯”昇騰引發(fā)的連鎖反應正在擴散。阿里、字節(jié)、騰訊已向華為批量采購昇騰950PR，訂單合計數(shù)十萬顆，集中采購推動芯片價格近幾周上漲20%。當行業(yè)龍頭用實際行動跟進非CUDA路徑時，效率路線就從一家公司的選擇變成了行業(yè)共識。

商業(yè)化數(shù)據(jù)也在印證這個轉折點。智譜2025年全年收入7.24億元，同比增長132%，MaaS API平臺年度經(jīng)常性收入達到17億元，同比增長了60倍。大模型正在從燒錢的概念變成賺錢的生意。

當行業(yè)中開始有人盈利時，“AI泡沫”的說法就該改變了。

米勒在《巴倫》雜志的判斷提供了另一個視角。他說，美中之間的差距不在于人才、不在于創(chuàng)新，而在于訓練時投入的運算資源。這是典型的存量思維，誰的卡多誰就贏。

但DeepSeek采用的是增量思維：讓每張卡的產出更高。V4在昇騰上運行，就是用效率將存量差距變成了一個可以繞開的問題。

而政策信號，可能是三重信號中最值得玩味的。

工信部發(fā)布了《普惠算力賦能中小企業(yè)發(fā)展專項行動》，目標是到2028年底顯著降低中小企業(yè)使用算力的門檻。文件中出現(xiàn)了兩個概念：“算力銀行”和“算力超市”。企業(yè)可以把閑置算力存進去，按需取用，按卡時、核時甚至Token來計費。

當政策開始用公共資源的邏輯來管理算力時，前沿智能就真的在成為基礎設施。DeepSeek從算法層到芯片層持續(xù)降低成本，政策從頂層將算力變成公共服務。

一個從供給側降低成本，一個從制度側實現(xiàn)普惠。兩條線交匯的那個點，就是AI不再是軍備競賽的那一天。

本文來自微信公眾號“NEXT趨勢”，作者：方遠，36氪經(jīng)授權發(fā)布。

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

48元一杯的阿嬤手作新品引熱議：高價背后是價值支撐還是市場勇氣？

“雪山救狐貍”爆火背后：從醬板鴨梗到AI視頻的狂歡與隱憂

廣發(fā)銀行陷900億專網(wǎng)通信騙局余波：贏官司難挽1.76億損失

中國科研人員網(wǎng)上售賣50萬外國人醫(yī)療數(shù)據(jù)引信任危機

姐姐們已尋新岸，《乘風2026》卻仍在舊浪中打轉

<ruby id="zpsu4"><dl id="zpsu4"><address id="zpsu4"></address></dl></ruby>