MatX獲5億美元融資:AI芯片如何平衡高吞吐量與低延遲
又一家由Google TPU前團隊成員創(chuàng)立的AI芯片初創(chuàng)公司獲得大額融資。近日,MatX完成5億美元B輪融資,領(lǐng)投方為Jane Street和Situational Awareness LP,Spark Capital、Triatomic Capital、Harpoon Ventures等機構(gòu)及Andrej Karpathy、Stripe聯(lián)合創(chuàng)始人Patrick Collison與John Collison等科技界人士參投,產(chǎn)投方Alchip和Marvell也參與其中。
此前,MatX曾獲Spark Capital領(lǐng)投的超1億美元A輪融資,Jane Street、Daniel Gross與Nat Friedman、Triatomic Capital、Harpoon Ventures及Adam D'Angelo等均有參投。
MatX認為,當前AI芯片的核心需求是高吞吐量與低延遲,對應(yīng)的關(guān)鍵指標為tokens/每秒和首token時間。其首款芯片已接近開發(fā)完成,預(yù)計一年內(nèi)完成流片。
這款名為MatX One的芯片采用可拆分脈動陣列架構(gòu),并結(jié)合SRAM與高帶寬內(nèi)存(HBM)的混合設(shè)計,旨在同時實現(xiàn)極低延遲與高吞吐量。
大語言模型專用芯片:兼顧高吞吐量與低延遲的突破
MatX由Reiner Pope和Mike Gunter聯(lián)合創(chuàng)立。Reiner Pope自2017年加入Google“登月工廠”(Moonshot Factory),2019年起擔任Google TPU技術(shù)主管兼架構(gòu)師,參與兩代TPU設(shè)計,是第二代芯片的主要負責人之一,還曾負責Google先進模型PaLM的軟件/硬件效率優(yōu)化。
Mike Gunter則深耕芯片底層邏輯電路與系統(tǒng)架構(gòu),加入Google前聯(lián)合創(chuàng)辦無線通信芯片公司Gossett and Gunter并被Google收購。2008年起,他主導(dǎo)Google首個硬件加速項目,將計算密集型任務(wù)性價比提升10倍以上,與Reiner Pope在Moonshot Factory及TPU項目中合作緊密。
2022年ChatGPT發(fā)布前,兩人已預(yù)判大語言模型的發(fā)展浪潮,希望AI硬件能支持超大模型,但Google TPU需兼顧龐大廣告工作負載,顛覆性創(chuàng)新受限,遂決定離職創(chuàng)業(yè)。

兩位創(chuàng)始人的組合實現(xiàn)了AI芯片軟硬件的深度融合,目前團隊規(guī)模達百人,匯聚了從學習率調(diào)度到硬件物理層盲插連接等領(lǐng)域的頂尖人才。
從架構(gòu)與存儲雙維度突破性能瓶頸
MatX One是專為大語言模型優(yōu)化的首款芯片,為此犧牲了小模型性能與低并發(fā)工作負載的適配。其核心技術(shù)包括“可拆分脈動陣列”電路設(shè)計架構(gòu)及SRAM與HBM結(jié)合的混合存儲結(jié)構(gòu)。
當前多數(shù)專用AI芯片采用脈動陣列架構(gòu),通過相同計算模塊的網(wǎng)絡(luò)連接,高效處理矩陣乘法與卷積運算,具有高硅片利用率、突破內(nèi)存墻及良好擴展性等優(yōu)勢,Google TPU從第一代起便采用該架構(gòu)。
但傳統(tǒng)脈動陣列的固定尺寸存在局限:僅能高效處理與陣列尺寸匹配的矩陣任務(wù)。而大語言模型計算場景中矩陣尺寸多變——推理解碼階段處理小型矩陣,MoE模型推理涉及不同專家的小型矩陣計算,訓(xùn)練階段則處理大型矩陣。固定陣列在處理小型矩陣時會閑置大量計算單元,處理大型矩陣時需拆分任務(wù)、多次傳輸數(shù)據(jù),增加延遲。
可拆分脈動陣列的優(yōu)勢在于能動態(tài)拆解為多個小陣列單元,根據(jù)矩陣大小調(diào)整電路配置,提升計算效率:處理訓(xùn)練階段大型矩陣時不拆分,發(fā)揮大陣列的高能效與高面積效率;處理解碼階段小型矩陣或MoE模型并行計算時,拆分為多個小陣列,讓所有計算單元充分工作,避免資源閑置。
存儲架構(gòu)的混合創(chuàng)新
當前存儲架構(gòu)有兩大主流路線:英偉達代表的HBM路線側(cè)重解決吞吐問題,通過高速搬運芯片間的權(quán)重與激活值應(yīng)對大模型、長上下文需求;Cerebras Systems代表的片上SRAM路線側(cè)重解決延遲問題,通過片上存儲減少外部訪存,降低單次查詢延遲。
但單一路線存在局限:僅強調(diào)HBM帶寬難以降低延遲,僅強調(diào)片上SRAM則規(guī)模擴展受限。MatX采用SRAM與HBM結(jié)合的混合存儲結(jié)構(gòu),MatX One將大部分模型權(quán)重存儲在緊鄰邏輯電路的SRAM中,利用其低延遲特性加快處理速度;KV緩存數(shù)據(jù)則存儲在速度稍慢但容量更大的HBM中,通過緩存計算結(jié)果減少重復(fù)計算,節(jié)省時間。
MatX聯(lián)合創(chuàng)始人Reiner Pope在博客中表示:“這些架構(gòu)要素結(jié)合數(shù)值計算優(yōu)化,使MatX One在大模型計算中實現(xiàn)超越現(xiàn)有主流系統(tǒng)的吞吐量,延遲表現(xiàn)與純SRAM優(yōu)先設(shè)計相當?!?/p>
在擴展性與適應(yīng)性方面,MatX One具備優(yōu)秀的橫向擴展互連架構(gòu),支持數(shù)十萬枚芯片組成的計算集群,且能適配大型MoE模型與稠密模型,模型規(guī)模無上限限制(得益于可拆分脈動陣列)。
除硬件外,Reiner Pope的模型訓(xùn)練經(jīng)驗也助力軟件優(yōu)化,MatX正探索將推測解碼與塊狀稀疏注意力機制融合,從模型層面進一步提升計算效率。據(jù)報道,MatX與臺積電合作生產(chǎn)芯片,MatX One計劃2027年開始發(fā)貨。
token成本臨界點:AI大規(guī)模普及的關(guān)鍵
以往AI芯片算力以FLOPS衡量,但推理算力更實際的指標是每秒tokens數(shù)。例如,近期獲1.69億美元融資的AI算力公司Taalas宣稱,其單芯片對Llama 3.1 8B模型的推理速度達17000 tokens/秒。
每秒tokens數(shù)本質(zhì)是經(jīng)濟賬:客戶花數(shù)萬美元買芯片,若吞吐量為十萬tokens/秒,每token成本僅為一萬tokens/秒的十分之一。當前AI算力的單位經(jīng)濟學尚未平衡,不少模型公司陷入“用戶越多虧損越多—限制使用—損害體驗”的怪圈。
2025年以來,Agent作為AI應(yīng)用形式日益普及,其token消耗量遠高于ChatBot:用戶與ChatBot交互幾十次可能消耗10-100萬tokens,而Agent完成復(fù)雜任務(wù)一晚上可能消耗上億tokens。當前高級AI模型API價格較高,這種消耗對用戶和模型公司均難以承受。
當token成本足夠低、單位經(jīng)濟學平衡時,AI普及將迎來質(zhì)變。如同移動互聯(lián)網(wǎng)時代,網(wǎng)絡(luò)提速降費、終端普及后,互聯(lián)網(wǎng)公司邊際成本降低,用戶能免費享受優(yōu)質(zhì)服務(wù),催生微信、抖音等巨型應(yīng)用。
AI時代的普及需要算力基礎(chǔ)設(shè)施各環(huán)節(jié)共同降低token成本,目前雖有進展但未達臨界點。行業(yè)向臨界點邁進的過程中,將涌現(xiàn)更多優(yōu)秀創(chuàng)業(yè)公司,值得期待。
本文來自微信公眾號“阿爾法公社”(ID:alphastartups),作者:發(fā)現(xiàn)非凡創(chuàng)業(yè)者的,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




