欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<tbody id="gumai"><noframes id="gumai"></noframes></tbody>

總理座談會上的兩位年輕人，正在改寫行業(yè)格局！

財富故事

5分鐘前

DeepSeek V4終于發(fā)布了。

V4模型擁有1.6萬億參數(shù)，100萬token上下文，再次刷新了開源模型的記錄。從春節(jié)開始被大家調(diào)侃了三個月的“下周一定”，終于一錘定音。

但我們翻完V4近60頁的技術(shù)文檔，突然反應(yīng)過來一件事。這已經(jīng)是一周內(nèi)第二個中國萬億開源模型了。

4月20日，Kimi K2.6剛剛開源。萬億參數(shù)MoE模型，支持300個子Agent協(xié)同，OpenRouter調(diào)用量直接沖到全球第一。

24日，DeepSeek V4正式發(fā)布，同一周，兩個萬億參數(shù)中國開源模型先后落地。

再看V4文檔里明確寫著的Muon優(yōu)化器，正是月之暗面去年在Kimi K2中率先驗(yàn)證的技術(shù)。而K2.6底層架構(gòu)采用的MLA注意力機(jī)制，來自DeepSeek。

而這兩家公司的創(chuàng)始人，楊植麟和梁文鋒，在過去14個月里先后走進(jìn)了國務(wù)院總理李強(qiáng)的座談會現(xiàn)場。一個33歲，一個40歲。而這兩個人，都來自廣東。

當(dāng)“人工智能+”成為國家戰(zhàn)略，兩個廣東年輕人正在交出高度同步的答卷。

兩個廣東年輕人

先后坐到了總理對面

4月10日下午，李強(qiáng)總理主持召開經(jīng)濟(jì)形勢專家和企業(yè)家座談會。8位受邀代表中，有7位是長期參與宏觀政策討論的經(jīng)濟(jì)學(xué)者和央國企代表，另一位是全場唯一的90后，月之暗面創(chuàng)始人楊植麟。

李強(qiáng)在會上明確提出，“深化拓展‘人工智能+’，加快制造業(yè)數(shù)智化轉(zhuǎn)型”。對于一家做基礎(chǔ)大模型的公司來說，這句話既是方向，也是命題。10天后，Kimi K2.6開源。又過4天，DeepSeek V4上線。

更耐人尋味的，是14個月前的另一次對話。

2025年1月20日，李強(qiáng)召開過一場同級別的座談會。那天坐在9位發(fā)言代表中的，是深度求索創(chuàng)始人梁文鋒。當(dāng)晚，DeepSeek開源了推理模型R1，引發(fā)全球熱議，被西方媒體稱為AI界的“斯普特尼克時刻”。

同一天，月之暗面發(fā)布了對標(biāo)OpenAI o1的k1.5。兩家公司從這一天起，不約而同站到了同一條賽道上。

14個月，兩場座談會，兩位AI創(chuàng)業(yè)者先后坐到總理對面。

楊植麟1992年生于廣東汕頭，保送清華，CMU博士，師從蘋果AI研究負(fù)責(zé)人和DeepMind首席科學(xué)家。到2024年春節(jié)，公司估值已突破25億美元。

梁文鋒1985年生于廣東湛江吳川，父親是小學(xué)老師。吳川一中高考狀元，浙大碩士。2015年創(chuàng)辦幻方量化，四年后管理規(guī)模突破100億，2021年突破1000億?？拷灰踪崄淼腻X，他一直在悄悄買算力——2021年“螢火二號”搭載了約1萬張英偉達(dá)A100，那時候國內(nèi)擁有超過1萬枚GPU的公司不超過5家。

一個從潮汕走進(jìn)國際頂級實(shí)驗(yàn)室，一個從粵西打進(jìn)算力牌桌。出發(fā)點(diǎn)天差地別，卻在同一個房間里先后給出了“萬億答卷”。

梁文鋒說過一句話：“中國必然需要有人站到技術(shù)的前沿?！爆F(xiàn)在，這句話多了一個廣東版本的注腳。

頂尖玩家總在同一個山口相遇

回看過去15個月，DeepSeek和Kimi的技術(shù)方向和發(fā)布時機(jī)，對齊到讓人懷疑是約好的。

2025年1月，DeepSeek-R1推理模型和Kimi K1.5多模態(tài)思考模型同日上線，相隔僅兩小時。OpenAI的論文也指出，這兩家是最早復(fù)現(xiàn)o1思維鏈的團(tuán)隊。

2025年2月，兩家前后腳發(fā)論文，都在改造Transformer注意力機(jī)制。DeepSeek的NSA做原生稀疏注意力，Kimi的MoBA做混合塊注意力。

2026年4月，萬億開源模型Kimi K2.6和DeepSeek V4同周上線。

三次標(biāo)志性的同步，方向出奇一致。

除此之外，讓海外技術(shù)圈真正感到震動的還有一件事。今年3月，Kimi放出了「注意力殘差」技術(shù)，將Transformer的核心原理「注意力」應(yīng)用到殘差連接上，在海外技術(shù)社區(qū)引發(fā)了廣泛關(guān)注和激烈討論。一家中國創(chuàng)業(yè)公司在動Transformer的地基，這件事本身就足夠讓硅谷技術(shù)圈緊張起來。

但更有意思的，是表面之下的技術(shù)交織。

你用我驗(yàn)過的注意力

我用你驗(yàn)過的優(yōu)化器

把Kimi K2.6和DeepSeek V4的官方技術(shù)文檔擺在一起，會發(fā)現(xiàn)一張近乎疊影的圖譜。

先看Kimi K2.6，這款模型總參數(shù)1萬億，激活32B，384個專家，256K上下文窗口。技術(shù)路線上沿用了MLA注意力機(jī)制，使用了一款名為MuonClip的二階優(yōu)化器，并引入了可伸縮至300個子智能體、4000步協(xié)同的Agent Swarm能力。

這樣的智能體集群能力使得其可以做到讓一個金融撮合引擎在13小時內(nèi)被自主重構(gòu)，代碼改動超過4000行。

而剛發(fā)布的DeepSeek V4是一款總參數(shù)1.6萬億，激活49B的開源模型，上下文窗口一次推到100萬token。為了實(shí)現(xiàn)百萬Token的上下文，技術(shù)文檔明確提到采用Muon優(yōu)化器，推理算力降到V3.2的27%，KV緩存只剩十分之一。

兩份技術(shù)文檔上的名詞，各有各的來歷，但逐項(xiàng)對照下來，會發(fā)現(xiàn)它們之間已經(jīng)不是簡單的借鑒，而是交織。

深度求索在2024年5月發(fā)布V2時首次公開MLA后，后續(xù)在2025年初的V3/R1模型上繼續(xù)優(yōu)化，成為了主流的技術(shù)路線。2025年7月，月之暗面也選擇MLA作為K2系列的注意力機(jī)制。

Muon的出現(xiàn)則是另一個故事。美國研究員Keller Jordan在2024年底一篇博客里提出這個優(yōu)化器后，月之暗面2025年2月發(fā)表《Muon is Scalable for LLM Training》，第一次在大模型訓(xùn)練規(guī)模上把它穩(wěn)定下來，并做出了一個更穩(wěn)健的變種MuonClip，率先在Kimi K2中規(guī)?；瘧?yīng)用。

一年之后，DeepSeek在V4技術(shù)報告里寫下那句："We employ the Muon optimizer for faster convergence and greater training stability."

一項(xiàng)技術(shù)創(chuàng)新從深度求索流向月之暗面，另一項(xiàng)又從月之暗面流向深度求索，兩家公司是在彼此驗(yàn)證過的技術(shù)節(jié)點(diǎn)上，輪番向前踩一步。

同一張圖譜里也有分岔。

DeepSeek V4設(shè)計了CSA（壓縮稀疏注意力）和HCA（重壓縮注意力）交替堆疊，核心假設(shè)是長序列中大部分KV條目對當(dāng)前query貢獻(xiàn)極小，可以安全跳過。Kimi下一代模型探索線性注意力，核心假設(shè)是注意力計算本身可以被重新表述為線性形式，把復(fù)雜度從序列長度的平方降到線性。

一個在篩選哪些token值得看，一個在改寫“看”這個動作本身的計算規(guī)則。殊途同歸，都在往Transformer最要命的成本結(jié)構(gòu)里動刀。

過去十年，中國AI的技術(shù)飛輪一直轉(zhuǎn)在美國。OpenAI發(fā)了新論文，中國公司跟著復(fù)現(xiàn)；Meta開源了新模型，中國公司拿來微調(diào)。

這一次，一家中國公司驗(yàn)過的技術(shù)節(jié)點(diǎn)，被另一家中國公司接手，再往前踩一步。中國AI的競爭，正在從“單點(diǎn)爆款”進(jìn)化成“生態(tài)接力”。

硅谷有些公司

已經(jīng)開始把底座換成中國模型

中國AI的故事，到這里還只是內(nèi)部故事。

但今年開春以來，硅谷的發(fā)布會PPT上，出現(xiàn)了一個讓人意外的變化。

2026年3月，英偉達(dá)GTC 2026在美國圣何塞召開。黃仁勛展示下一代Rubin機(jī)柜性能的PPT上，訓(xùn)練基準(zhǔn)用的是DeepSeek，推理吞吐和token成本基準(zhǔn)用的是Kimi K2-Thinking。同一張PPT，兩個中國開源模型。

同期GTC官方博客介紹新一代DGX Station時，明確列出了這臺工作站支持的前沿開源模型清單，兩款中國模型分別是Kimi K2.5和DeepSeek V3.2。那幾天，楊植麟作為唯一一位來自獨(dú)立大模型創(chuàng)業(yè)公司的中國嘉賓，在GTC現(xiàn)場做了一場演講。

同一個月更戲劇的事發(fā)生在Cursor身上。

2026年3月19日，估值約500億美元、被視為硅谷AI編程頭號玩家的Cursor，發(fā)布了新一代旗艦?zāi)Ｐ虲omposer 2，對外宣稱“自研”。不到一天，開發(fā)者在API日志中截下了請求，發(fā)現(xiàn)模型ID字段赫然寫著一串字符："kimi-k2p5-rl-0317-s515-fast"。

馬斯克親自在帖子下留言："Yeah, it's Kimi 2.5."

Cursor聯(lián)合創(chuàng)始人Aman Sanger事后承認(rèn)，他們把市面上能拿到的基座模型跑了一遍，Kimi K2.5得分最高。在Cursor后來放出的技術(shù)報告中，這個候選名單里只有GLM5、Kimi K2.5和DeepSeek V3.2——沒有Claude，沒有Gemini，沒有GPT。更關(guān)鍵的是，基于Kimi K2.5微調(diào)出來的Composer 2，在CursorBench上直接超過了Claude Opus 4.6。

一家年化收入超過20億美元、被稱作“硅谷AI編程之王”的美國公司，選擇清單里原本有Claude、有Gemini、有GPT，但引以為傲的旗艦?zāi)Ｐ?，底子是一家中國公司的開源基座。

幾乎同一時期，日本樂天集團(tuán)發(fā)布旗艦大模型Rakuten AI 3.0，7000億參數(shù)，日本經(jīng)濟(jì)產(chǎn)業(yè)省資助，官方宣傳為“日本自研”。開發(fā)者很快扒出，Hugging Face頁面上帶有deepseek_v3標(biāo)簽，關(guān)鍵結(jié)構(gòu)參數(shù)幾乎和DeepSeek V3一致，被廣泛視作基于DeepSeek V3的再訓(xùn)練版本。

Meta也給了一次背書。發(fā)布Muse Spark時，代碼困惑度對比圖里用來對標(biāo)的外部模型，是Llama 4 Maverick、DeepSeek-V3.1 Base和Kimi-K2 Base。

最硬的數(shù)據(jù)來自O(shè)penRouter。這個平臺被業(yè)界視作全球AI大模型API調(diào)用的公共路口。據(jù)其公共榜單統(tǒng)計，到2026年一季度，中國開源大模型在該平臺的周Token調(diào)用量占比，已從2024年底的個位數(shù)上升到60%以上。截至今天，OpenRouter調(diào)用量前三中，兩個是中國模型，而他們正是Kimi和DeepSeek。

從黃仁勛的發(fā)布會PPT，到硅谷頭部應(yīng)用的底座模型，再到日本大廠“自研”的底子，“Kimi”和“DeepSeek”這兩個名字，在全球越來越常見。

從追硅谷，到硅谷回頭看中國

“加速探索智能上限”，這句話真正落地，要回到芯片這一層。

DeepSeek V4發(fā)布當(dāng)天，深度求索在推文里寫明V4使用華為昇騰進(jìn)行推理，并補(bǔ)了一句：“受限于高端算力，目前Pro的服務(wù)吞吐十分有限，預(yù)計下半年昇騰950超節(jié)點(diǎn)批量上市后，Pro的價格會大幅下調(diào)。”

Kimi走的是另一條路。3月的英偉達(dá)GTC大會上，楊植麟在圣何塞做了一場主題演講，Kimi K2.5被列入英偉達(dá)DGX Station的官方支持清單。但同一時間，月之暗面也在走國產(chǎn)芯片路線。Kimi K2.6開源后，壁仞科技第一時間完成了適配；更早之前，Kimi K2.5已經(jīng)在國產(chǎn)昇騰平臺上跑通了多模態(tài)推理。今年4月，Kimi團(tuán)隊在一篇論文里提出了“Prefill-as-a-Service”的分離式推理架構(gòu)，核心思路正是推進(jìn)國產(chǎn)芯片的混合推理。

一邊是和英偉達(dá)保持深度合作，一邊在國產(chǎn)算力上提前布局。

兩條路，同一個方向。當(dāng)美國不斷收緊高端芯片的閥門，這兩家中國創(chuàng)業(yè)公司說明了一件事：擺脫物理算力的卡脖子，不一定只有一條路。

14個月前，梁文鋒走進(jìn)第一場座談會時，中國AI最需要證明的問題還是“能不能做出一款世界級的基礎(chǔ)模型”。14個月后，楊植麟走進(jìn)第二場座談會時，問題已經(jīng)變成“在被封鎖的算力生態(tài)里，能不能持續(xù)地做，一起做，讓基礎(chǔ)能力的躍遷變成常態(tài)”。

答案是能。

“我們不是有意成為一條鯰魚，只是不小心成了一條鯰魚。”梁文鋒2024年夏天說的這句話，在2026年春天再讀，更像一個被時間提前寫好的注腳。

兩年前，楊植麟把月之暗面的雄心形容為“承包一片森林，而不是種一棵樹”。兩年后，這片森林里至少已經(jīng)長出了兩棵夠得著云層的樹。

過去十年，中國AI在追OpenAI，在追英偉達(dá)，在追硅谷。

這一次，輪到硅谷回頭看中國了。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

華誼兄弟大敗局！明星、資本杠桿與泡沫……

千億房企破產(chǎn)！莆田前首富28年興衰啟示錄

狂銷120億！低調(diào)江門老板，默默霸榜中國摩托23年

3個年輕人湊6萬起家，30年干成千億巨頭！

曾賭博輸?shù)羰畮變|！消失八年的初代大佬，復(fù)出了！

項(xiàng)目推薦

迪瓜租機(jī)

康老板 · 氧療堂

<tbody id="qmoyi"><sup id="qmoyi"></sup></tbody>