24人團(tuán)隊(duì)打造17000 token/秒專用芯片:通用與專用計(jì)算的未來之爭(zhēng)
本文來自微信公眾號(hào):陸三金,作者:陸三金&kimi,原文標(biāo)題:《24個(gè)人,17000 token/秒,一顆不可編程的芯片》
春節(jié)期間搜集新聞時(shí),一個(gè)數(shù)據(jù)讓人眼前一亮:有芯片能將AI推理速度提升至17000 token/秒。
這顆芯片運(yùn)行Llama 3.1 8B模型時(shí),速度是Nvidia H200的七十多倍,功耗卻僅為其零頭。它無需液冷、HBM或復(fù)雜先進(jìn)封裝,只是一塊815平方毫米的硅片,模型直接“刻”在芯片上。

值得注意的是,這顆芯片不可編程,只能運(yùn)行特定模型。
研發(fā)它的公司Taalas由Ljubisa Bajic創(chuàng)立,他曾是Tenstorrent的CEO,帶領(lǐng)一群共事二十年的老同事,耗時(shí)兩年半打造出HC1芯片。這引發(fā)了一個(gè)經(jīng)典問題:通用計(jì)算與專用計(jì)算,誰(shuí)才是未來?
一
Bajic在AMD、英偉達(dá)有13年芯片設(shè)計(jì)經(jīng)驗(yàn),參與過ASIC和APU研發(fā)。

2016年他創(chuàng)立Tenstorrent,專注通用AI芯片,憑借靈活架構(gòu)和軟件生態(tài)嶄露頭角。2020年“硅仙人”Jim Keller加入后,公司知名度大增。但兩年后Bajic轉(zhuǎn)任CTO,Keller任CEO,不久Bajic離開。
從Taalas的路線可推測(cè)原因:Tenstorrent走通用路線,而Taalas做專用芯片。Bajic認(rèn)為通用路線存在問題——現(xiàn)代AI推理硬件被計(jì)算與存儲(chǔ)的速度差(上千倍)制約,廠商不得不堆HBM、搞先進(jìn)封裝和液冷,導(dǎo)致數(shù)據(jù)中心成本高、功耗大。

Taalas的解決方案是消除計(jì)算與存儲(chǔ)的界限,將模型直接“刻”進(jìn)硅片,讓存儲(chǔ)與計(jì)算合一,無需高帶寬內(nèi)存和復(fù)雜IO,功耗大幅降低,但代價(jià)是芯片功能單一。
二
HC1參數(shù)亮眼:臺(tái)積電6納米工藝,530億晶體管,815平方毫米,單用戶場(chǎng)景下17000 tokens/秒,遠(yuǎn)超Cerebras(約2000 tokens)和Nvidia H200(230 tokens),建造成本僅為二十分之一,功耗為十分之一。
但它僅能運(yùn)行Llama 3.1 8B,該模型2024年7月發(fā)布,到2026年2月已近兩年。AI領(lǐng)域迭代迅速,期間OpenAI、Anthropic、Google等已推出多代新模型,Meta也發(fā)布了Llama 3.3,DeepSeek R1更是顛覆行業(yè)。
Taalas稱“模型到硬件只需兩個(gè)月”,但網(wǎng)友質(zhì)疑:若如此,為何不展示更新的DeepSeek模型?還有人擔(dān)心模型技術(shù)路線變化,如DeepSeek R1打亂眾多公司計(jì)劃,定制芯片可能迅速過時(shí)。Bajic也承認(rèn)風(fēng)險(xiǎn):“沒人走這條路,因AI變化快,風(fēng)險(xiǎn)大?!?/p>


三
Taalas的客戶需“愿意為一年承諾買單”,以攤平定制成本。但AI市場(chǎng)迭代快,創(chuàng)業(yè)公司和大廠都不敢輕易承諾。Bajic舉例,DeepSeek R1 671B模型需約30顆芯片,意味著30次增量流片,雖成本低但仍繁瑣。他認(rèn)為總擁有成本低于GPU方案,但前提是模型架構(gòu)無大變化,否則芯片可能報(bào)廢。比特幣挖礦ASIC的迭代歷史就是教訓(xùn),舊礦機(jī)迅速貶值,只有巨頭能生存。Taalas面臨同樣問題:硬件生命周期能否追上軟件變化?

四
HC1能容納8B模型,靠的是激進(jìn)量化(3-bit和6-bit混合精度),Taalas承認(rèn)“相比GPU基準(zhǔn)有質(zhì)量損失”,計(jì)劃第二代HC2改用4-bit浮點(diǎn)格式。這對(duì)高精度推理場(chǎng)景可能致命,且模型越大,量化損失可能越明顯,硬連線方案能否適配更大模型存疑。
五
24人小團(tuán)隊(duì)用三千萬美元造出高性能芯片,證明AI芯片領(lǐng)域有不同路徑。技術(shù)路線選擇不僅是技術(shù)問題,Taalas賭AI模型會(huì)收斂,少數(shù)架構(gòu)統(tǒng)治市場(chǎng),那時(shí)效率比靈活性重要。但當(dāng)前AI市場(chǎng)遠(yuǎn)未收斂,DeepSeek R1的出現(xiàn)說明顛覆隨時(shí)可能發(fā)生。將模型刻進(jìn)硅片如同在流沙上蓋房,地基不穩(wěn)。Bajic團(tuán)隊(duì)用極端專用化追求極致效率,HC1是一次嘗試,HC2或有新突破。這支共事超二十年的精簡(jiǎn)團(tuán)隊(duì),在快速迭代的AI時(shí)代,試圖讓硬件追上模型速度,等待模型穩(wěn)定后逆襲,充滿冒險(xiǎn)與浪漫。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




