欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<option id="gsq42"></option>

<dfn id="gsq42"><tr id="gsq42"></tr></dfn>

<menu id="gsq42"><tbody id="gsq42"></tbody></menu>

<button id="gsq42"></button>

MatX獲5億美元融資：AI芯片如何平衡高吞吐量與低延遲

03-06 06:42

當單個token的成本足夠低，AI的大規(guī)模普及才會真正到來。

又一家由Google TPU前團隊成員創(chuàng)立的AI芯片初創(chuàng)公司獲得大額融資。近日，MatX完成5億美元B輪融資，領(lǐng)投方為Jane Street和Situational Awareness LP，Spark Capital、Triatomic Capital、Harpoon Ventures等機構(gòu)及Andrej Karpathy、Stripe聯(lián)合創(chuàng)始人Patrick Collison與John Collison等科技界人士參投，產(chǎn)投方Alchip和Marvell也參與其中。

此前，MatX曾獲Spark Capital領(lǐng)投的超1億美元A輪融資，Jane Street、Daniel Gross與Nat Friedman、Triatomic Capital、Harpoon Ventures及Adam D'Angelo等均有參投。

MatX認為，當前AI芯片的核心需求是高吞吐量與低延遲，對應(yīng)的關(guān)鍵指標為tokens/每秒和首token時間。其首款芯片已接近開發(fā)完成，預(yù)計一年內(nèi)完成流片。

這款名為MatX One的芯片采用可拆分脈動陣列架構(gòu)，并結(jié)合SRAM與高帶寬內(nèi)存（HBM）的混合設(shè)計，旨在同時實現(xiàn)極低延遲與高吞吐量。

大語言模型專用芯片：兼顧高吞吐量與低延遲的突破

MatX由Reiner Pope和Mike Gunter聯(lián)合創(chuàng)立。Reiner Pope自2017年加入Google“登月工廠”（Moonshot Factory），2019年起擔任Google TPU技術(shù)主管兼架構(gòu)師，參與兩代TPU設(shè)計，是第二代芯片的主要負責人之一，還曾負責Google先進模型PaLM的軟件/硬件效率優(yōu)化。

Mike Gunter則深耕芯片底層邏輯電路與系統(tǒng)架構(gòu)，加入Google前聯(lián)合創(chuàng)辦無線通信芯片公司Gossett and Gunter并被Google收購。2008年起，他主導(dǎo)Google首個硬件加速項目，將計算密集型任務(wù)性價比提升10倍以上，與Reiner Pope在Moonshot Factory及TPU項目中合作緊密。

2022年ChatGPT發(fā)布前，兩人已預(yù)判大語言模型的發(fā)展浪潮，希望AI硬件能支持超大模型，但Google TPU需兼顧龐大廣告工作負載，顛覆性創(chuàng)新受限，遂決定離職創(chuàng)業(yè)。

兩位創(chuàng)始人的組合實現(xiàn)了AI芯片軟硬件的深度融合，目前團隊規(guī)模達百人，匯聚了從學習率調(diào)度到硬件物理層盲插連接等領(lǐng)域的頂尖人才。

從架構(gòu)與存儲雙維度突破性能瓶頸

MatX One是專為大語言模型優(yōu)化的首款芯片，為此犧牲了小模型性能與低并發(fā)工作負載的適配。其核心技術(shù)包括“可拆分脈動陣列”電路設(shè)計架構(gòu)及SRAM與HBM結(jié)合的混合存儲結(jié)構(gòu)。

當前多數(shù)專用AI芯片采用脈動陣列架構(gòu)，通過相同計算模塊的網(wǎng)絡(luò)連接，高效處理矩陣乘法與卷積運算，具有高硅片利用率、突破內(nèi)存墻及良好擴展性等優(yōu)勢，Google TPU從第一代起便采用該架構(gòu)。

但傳統(tǒng)脈動陣列的固定尺寸存在局限：僅能高效處理與陣列尺寸匹配的矩陣任務(wù)。而大語言模型計算場景中矩陣尺寸多變——推理解碼階段處理小型矩陣，MoE模型推理涉及不同專家的小型矩陣計算，訓(xùn)練階段則處理大型矩陣。固定陣列在處理小型矩陣時會閑置大量計算單元，處理大型矩陣時需拆分任務(wù)、多次傳輸數(shù)據(jù)，增加延遲。

可拆分脈動陣列的優(yōu)勢在于能動態(tài)拆解為多個小陣列單元，根據(jù)矩陣大小調(diào)整電路配置，提升計算效率：處理訓(xùn)練階段大型矩陣時不拆分，發(fā)揮大陣列的高能效與高面積效率；處理解碼階段小型矩陣或MoE模型并行計算時，拆分為多個小陣列，讓所有計算單元充分工作，避免資源閑置。

存儲架構(gòu)的混合創(chuàng)新

當前存儲架構(gòu)有兩大主流路線：英偉達代表的HBM路線側(cè)重解決吞吐問題，通過高速搬運芯片間的權(quán)重與激活值應(yīng)對大模型、長上下文需求；Cerebras Systems代表的片上SRAM路線側(cè)重解決延遲問題，通過片上存儲減少外部訪存，降低單次查詢延遲。

但單一路線存在局限：僅強調(diào)HBM帶寬難以降低延遲，僅強調(diào)片上SRAM則規(guī)模擴展受限。MatX采用SRAM與HBM結(jié)合的混合存儲結(jié)構(gòu)，MatX One將大部分模型權(quán)重存儲在緊鄰邏輯電路的SRAM中，利用其低延遲特性加快處理速度；KV緩存數(shù)據(jù)則存儲在速度稍慢但容量更大的HBM中，通過緩存計算結(jié)果減少重復(fù)計算，節(jié)省時間。

MatX聯(lián)合創(chuàng)始人Reiner Pope在博客中表示：“這些架構(gòu)要素結(jié)合數(shù)值計算優(yōu)化，使MatX One在大模型計算中實現(xiàn)超越現(xiàn)有主流系統(tǒng)的吞吐量，延遲表現(xiàn)與純SRAM優(yōu)先設(shè)計相當?！?/p>

在擴展性與適應(yīng)性方面，MatX One具備優(yōu)秀的橫向擴展互連架構(gòu)，支持數(shù)十萬枚芯片組成的計算集群，且能適配大型MoE模型與稠密模型，模型規(guī)模無上限限制（得益于可拆分脈動陣列）。

除硬件外，Reiner Pope的模型訓(xùn)練經(jīng)驗也助力軟件優(yōu)化，MatX正探索將推測解碼與塊狀稀疏注意力機制融合，從模型層面進一步提升計算效率。據(jù)報道，MatX與臺積電合作生產(chǎn)芯片，MatX One計劃2027年開始發(fā)貨。

token成本臨界點：AI大規(guī)模普及的關(guān)鍵

以往AI芯片算力以FLOPS衡量，但推理算力更實際的指標是每秒tokens數(shù)。例如，近期獲1.69億美元融資的AI算力公司Taalas宣稱，其單芯片對Llama 3.1 8B模型的推理速度達17000 tokens/秒。

每秒tokens數(shù)本質(zhì)是經(jīng)濟賬：客戶花數(shù)萬美元買芯片，若吞吐量為十萬tokens/秒，每token成本僅為一萬tokens/秒的十分之一。當前AI算力的單位經(jīng)濟學尚未平衡，不少模型公司陷入“用戶越多虧損越多—限制使用—損害體驗”的怪圈。

2025年以來，Agent作為AI應(yīng)用形式日益普及，其token消耗量遠高于ChatBot：用戶與ChatBot交互幾十次可能消耗10-100萬tokens，而Agent完成復(fù)雜任務(wù)一晚上可能消耗上億tokens。當前高級AI模型API價格較高，這種消耗對用戶和模型公司均難以承受。

當token成本足夠低、單位經(jīng)濟學平衡時，AI普及將迎來質(zhì)變。如同移動互聯(lián)網(wǎng)時代，網(wǎng)絡(luò)提速降費、終端普及后，互聯(lián)網(wǎng)公司邊際成本降低，用戶能免費享受優(yōu)質(zhì)服務(wù)，催生微信、抖音等巨型應(yīng)用。

AI時代的普及需要算力基礎(chǔ)設(shè)施各環(huán)節(jié)共同降低token成本，目前雖有進展但未達臨界點。行業(yè)向臨界點邁進的過程中，將涌現(xiàn)更多優(yōu)秀創(chuàng)業(yè)公司，值得期待。

本文來自微信公眾號“阿爾法公社”（ID：alphastartups），作者：發(fā)現(xiàn)非凡創(chuàng)業(yè)者的，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

東亞私生飯為何如此極端？從產(chǎn)業(yè)邏輯到制度缺失的深層剖析

國內(nèi)首個硅谷科創(chuàng)展團將亮相AWE2026東方樞紐展區(qū)

從FTX前成員到AI投資新貴：24歲的Leopold如何讓2.25億一年暴漲至55億

旭輝商業(yè)再獲南通金沙新天地項目與圓宏集團深化合作共筑通州商業(yè)新篇

油氣股暴漲后遇回調(diào)，短期狂歡能否持續(xù)？

項目推薦

<option id="wkose"></option>

<menu id="wkose"><table id="wkose"></table></menu>

<fieldset id="wkose"></fieldset>

<td id="wkose"></td>