欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

<li id="6u4mq"></li>

<fieldset id="6u4mq"></fieldset>

<menu id="6u4mq"><tbody id="6u4mq"></tbody></menu><ul id="6u4mq"><menu id="6u4mq"></menu></ul>

<menu id="6u4mq"><object id="6u4mq"></object></menu><li id="6u4mq"><object id="6u4mq"></object></li>

24人團(tuán)隊(duì)打造17000 token/秒專用芯片：通用與專用計(jì)算的未來之爭(zhēng)

02-24 06:09

本文來自微信公眾號(hào)：陸三金，作者：陸三金&kimi，原文標(biāo)題：《24個(gè)人，17000 token/秒，一顆不可編程的芯片》

春節(jié)期間搜集新聞時(shí)，一個(gè)數(shù)據(jù)讓人眼前一亮：有芯片能將AI推理速度提升至17000 token/秒。

這顆芯片運(yùn)行Llama 3.1 8B模型時(shí)，速度是Nvidia H200的七十多倍，功耗卻僅為其零頭。它無需液冷、HBM或復(fù)雜先進(jìn)封裝，只是一塊815平方毫米的硅片，模型直接“刻”在芯片上。

值得注意的是，這顆芯片不可編程，只能運(yùn)行特定模型。

研發(fā)它的公司Taalas由Ljubisa Bajic創(chuàng)立，他曾是Tenstorrent的CEO，帶領(lǐng)一群共事二十年的老同事，耗時(shí)兩年半打造出HC1芯片。這引發(fā)了一個(gè)經(jīng)典問題：通用計(jì)算與專用計(jì)算，誰(shuí)才是未來？

一

Bajic在AMD、英偉達(dá)有13年芯片設(shè)計(jì)經(jīng)驗(yàn)，參與過ASIC和APU研發(fā)。

2016年他創(chuàng)立Tenstorrent，專注通用AI芯片，憑借靈活架構(gòu)和軟件生態(tài)嶄露頭角。2020年“硅仙人”Jim Keller加入后，公司知名度大增。但兩年后Bajic轉(zhuǎn)任CTO，Keller任CEO，不久Bajic離開。

從Taalas的路線可推測(cè)原因：Tenstorrent走通用路線，而Taalas做專用芯片。Bajic認(rèn)為通用路線存在問題——現(xiàn)代AI推理硬件被計(jì)算與存儲(chǔ)的速度差（上千倍）制約，廠商不得不堆HBM、搞先進(jìn)封裝和液冷，導(dǎo)致數(shù)據(jù)中心成本高、功耗大。

Taalas的解決方案是消除計(jì)算與存儲(chǔ)的界限，將模型直接“刻”進(jìn)硅片，讓存儲(chǔ)與計(jì)算合一，無需高帶寬內(nèi)存和復(fù)雜IO，功耗大幅降低，但代價(jià)是芯片功能單一。

二

HC1參數(shù)亮眼：臺(tái)積電6納米工藝，530億晶體管，815平方毫米，單用戶場(chǎng)景下17000 tokens/秒，遠(yuǎn)超Cerebras（約2000 tokens）和Nvidia H200（230 tokens），建造成本僅為二十分之一，功耗為十分之一。

但它僅能運(yùn)行Llama 3.1 8B，該模型2024年7月發(fā)布，到2026年2月已近兩年。AI領(lǐng)域迭代迅速，期間OpenAI、Anthropic、Google等已推出多代新模型，Meta也發(fā)布了Llama 3.3，DeepSeek R1更是顛覆行業(yè)。

Taalas稱“模型到硬件只需兩個(gè)月”，但網(wǎng)友質(zhì)疑：若如此，為何不展示更新的DeepSeek模型？還有人擔(dān)心模型技術(shù)路線變化，如DeepSeek R1打亂眾多公司計(jì)劃，定制芯片可能迅速過時(shí)。Bajic也承認(rèn)風(fēng)險(xiǎn)：“沒人走這條路，因AI變化快，風(fēng)險(xiǎn)大?！?/p>

三

Taalas的客戶需“愿意為一年承諾買單”，以攤平定制成本。但AI市場(chǎng)迭代快，創(chuàng)業(yè)公司和大廠都不敢輕易承諾。Bajic舉例，DeepSeek R1 671B模型需約30顆芯片，意味著30次增量流片，雖成本低但仍繁瑣。他認(rèn)為總擁有成本低于GPU方案，但前提是模型架構(gòu)無大變化，否則芯片可能報(bào)廢。比特幣挖礦ASIC的迭代歷史就是教訓(xùn)，舊礦機(jī)迅速貶值，只有巨頭能生存。Taalas面臨同樣問題：硬件生命周期能否追上軟件變化？

四

HC1能容納8B模型，靠的是激進(jìn)量化（3-bit和6-bit混合精度），Taalas承認(rèn)“相比GPU基準(zhǔn)有質(zhì)量損失”，計(jì)劃第二代HC2改用4-bit浮點(diǎn)格式。這對(duì)高精度推理場(chǎng)景可能致命，且模型越大，量化損失可能越明顯，硬連線方案能否適配更大模型存疑。

五

24人小團(tuán)隊(duì)用三千萬美元造出高性能芯片，證明AI芯片領(lǐng)域有不同路徑。技術(shù)路線選擇不僅是技術(shù)問題，Taalas賭AI模型會(huì)收斂，少數(shù)架構(gòu)統(tǒng)治市場(chǎng)，那時(shí)效率比靈活性重要。但當(dāng)前AI市場(chǎng)遠(yuǎn)未收斂，DeepSeek R1的出現(xiàn)說明顛覆隨時(shí)可能發(fā)生。將模型刻進(jìn)硅片如同在流沙上蓋房，地基不穩(wěn)。Bajic團(tuán)隊(duì)用極端專用化追求極致效率，HC1是一次嘗試，HC2或有新突破。這支共事超二十年的精簡(jiǎn)團(tuán)隊(duì)，在快速迭代的AI時(shí)代，試圖讓硬件追上模型速度，等待模型穩(wěn)定后逆襲，充滿冒險(xiǎn)與浪漫。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

2026春節(jié)AI戰(zhàn)局落定：螞蟻以“雙億突破”領(lǐng)跑專業(yè)賽道

《真探來了》熱播：探險(xiǎn)者秦陽(yáng)明解鎖西北秘境千年密碼

熊貓小希伴成長(zhǎng)：趣味漢字學(xué)習(xí)之旅

伊?xí)枣迷洪L(zhǎng)開講《古代奇女子》：解鎖千年女性傳奇

“視覺覺醒”：告別“是否學(xué)攝影”的焦慮，重拾凝視世界的能力

項(xiàng)目推薦