欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

內存墻困境:AI加速為何不能僅靠堆砌計算單元?

1天前

本文來自微信公眾號: 歪睿老哥 ,作者:歪睿老哥



一提到AI加速,不少人首先想到的就是增加算力、堆砌更多浮點計算單元。



但這種思路其實存在誤區(qū)。



當前AI加速的瓶頸并非計算能力本身,而是數(shù)據(jù)搬運、通信效率以及不規(guī)則算子的處理問題。即便峰值算力再高,如果這些環(huán)節(jié)跟不上,也難以發(fā)揮作用。



以大語言模型推理為例,每生成一個新token,都需要對已存儲的KV緩存進行讀寫操作。這一過程對計算的需求并不高,真正的短板在于內存帶寬——若帶寬不足,即便計算單元數(shù)量再多,也只能等待數(shù)據(jù)從內存緩慢傳輸,大部分時間處于閑置狀態(tài)。



再看當下流行的混合專家模型(MoE),每個token僅由部分專家處理,這種動態(tài)路由的不規(guī)則計算方式,傳統(tǒng)通用硬件難以高效支持。



因此,要運行最新的頂尖模型,無論是訓練還是推理,若缺乏專門的硬件加速優(yōu)化,要么成本高得驚人,要么延遲嚴重到無法實際應用,根本無法落地。





目前,硬件加速領域已全面鋪開,從配備張量核心的通用GPU,到谷歌TPU、手機NPU等專用張量處理器,還有FPGA可重構設計、ASIC專用推理芯片。近期甚至出現(xiàn)了專為大語言模型推理打造的LPU,存算一體、神經(jīng)形態(tài)計算等新技術也在不斷發(fā)展。



這些技術的出現(xiàn),本質上是剛需推動的結果——沒有它們的加速,如今的AI技術很難從實驗室走向大眾的手機等終端設備。



無論是訓練還是推理,大模型早已將壓力轉移到內存和通信層面,單純堆砌計算單元無法解決問題。下面我們從不同維度拆解瓶頸所在。



首先是功耗與能量瓶頸。



你知道嗎?



移動一個字節(jié)數(shù)據(jù)消耗的能量,比完成一次浮點計算要高出好幾個數(shù)量級。



當前絕大多數(shù)場景中,芯片的功耗大部分都消耗在數(shù)據(jù)搬運上,而非計算過程。



數(shù)據(jù)移動的能耗明顯高于算術運算能耗。



從不同硬件來看:



GPU的功耗基本與內存流量綁定,若不進行算子融合,大部分能量會浪費在寄存器、緩存與顯存之間的數(shù)據(jù)來回搬運上;



TPU/Edge NPU依靠專用數(shù)據(jù)流節(jié)省能量,但一旦工作負載不符合設計預期,需要頻繁訪問片外存儲,能量效率會立刻下降;



ASIC和FPGA雖能通過流水線和片上緩存減少數(shù)據(jù)搬運,但只要模型出現(xiàn)新算子需要回退到CPU,或片上存儲無法容納數(shù)據(jù)導致頻繁交換,能量優(yōu)勢就會消失;



即便是專門針對大模型推理的LPU,以及存算一體、神經(jīng)形態(tài)等新架構,也繞不開KV緩存搬運的能量成本問題——本質仍是數(shù)據(jù)移動的挑戰(zhàn)。



講完功耗,再看大家關注的延遲與吞吐量問題。



很多廠商宣傳峰值TOPS,但實際運行時往往達不到,原因何在?



因為吞吐量和延遲并非僅靠算力堆砌就能提升,瓶頸始終在數(shù)據(jù)端。





LLM推理的預填和解碼階段瓶頸對比,解碼階段明顯受內存帶寬限制



以大語言模型推理為例:整個過程分為預填和解碼兩個階段,預填階段計算密集,解碼階段則完全受帶寬制約。



每生成一個新token,都要讀寫整個KV緩存,數(shù)據(jù)未傳輸完成,計算單元再強也只能等待。



不同硬件的痛點各異:



GPU通過批處理提升吞吐量,但批次越大排隊時間越長,尾延遲難以控制;



TPU/NPU對固定形狀的密集算子處理速度快,但形狀變化、序列變長時,編譯調度跟不上,延遲會大幅上升;



ASIC依靠固定算子實現(xiàn)低延遲,但若遇到不支持的新算子,延遲會直接崩潰;



FPGA可實現(xiàn)確定性低延遲,但路由擁堵和片上內存不足的問題,會導致序列稍長時吞吐量下降;



專門用于LLM推理的LPU,即便將調度集成到硬件中,也無法擺脫一個規(guī)律:上下文越長,需要搬運的KV緩存越多,延遲下限由內存帶寬決定,架構優(yōu)化也無法突破這一物理限制。



接下來是面積與成本瓶頸。




加速器設計中的面積、成本與性能權衡



硅片面積有限,將面積分配給計算單元還是內存,是永恒的權衡問題。



如今越來越多的設計發(fā)現(xiàn),將面積分配給內存和互聯(lián),比分配給更多計算單元的回報更高。



例如,在大模型推理中,即便擁有滿片的計算單元,要容納70B模型的權重和KV緩存,也需購買更多卡,即使每張卡的計算利用率僅30%,這筆“容量稅”也不得不交。



采用低延遲SRAM架構的LPU,延遲表現(xiàn)出色,但存儲大模型權重需要堆砌大量芯片,成本極高,非普通用戶所能承受。



新架構也面臨類似問題:存算一體需要大量ADC/DAC周邊電路,這些電路的面積甚至超過計算交叉陣;



神經(jīng)形態(tài)芯片將大量面積用于存儲和路由,處理密集模型時的面積效率遠低于傳統(tǒng)脈動陣列,成本難以收回。



然后是核心的內存與通信瓶頸。



當前端到端性能基本受內存容量、帶寬和通信限制,峰值算力只是一個理論數(shù)字。





大模型訓練和推理中的內存與通信瓶頸,有限的HBM帶寬和互聯(lián)延遲是主要限制因素



訓練時需要存儲激活值、梯度和優(yōu)化器狀態(tài),大模型的這些數(shù)據(jù)會迅速占滿顯存;



推理時LLM的KV緩存會隨上下文長度和并發(fā)數(shù)線性增長,即便計算能力充足,帶寬不足仍會導致運行卡頓。



分布式訓練中,多卡間的all-reduce操作,通信時間常超過計算時間,互聯(lián)帶寬不足時,增加再多卡也無法提升效率。



不同硬件的具體情況也有差異:



GPU算力增長速度遠快于內存帶寬,“內存墻”問題日益突出;



TPU編譯器若工作集略超片上SRAM容量,性能會急劇下降,比GPU的降級速度更快;



ASIC依靠固定數(shù)據(jù)流節(jié)省帶寬,但遇到Attention這類不規(guī)則訪問時,性能會大幅下降;



LPU進行多芯片互聯(lián)時,需要納秒級同步,普通PCIe無法滿足,必須采用專用互聯(lián),成本隨之上升;



存算一體雖解決了片外數(shù)據(jù)搬運問題,但片上網(wǎng)絡成為新瓶頸,交叉陣計算完成后數(shù)據(jù)無法及時傳出,計算單元仍會閑置。



最后是資源利用率問題,這一點常被忽視,但對實際體驗影響很大。



不規(guī)則的工作負載,如非結構化稀疏、動態(tài)形狀、MoE路由等,會導致負載不均衡,即便峰值算力很高,實際利用率可能不足一半。





不規(guī)則工作負載導致的負載不均衡與計算單元利用率下降示意圖



例如,小批量推理時,許多ASIC為追求峰值TOPS設計了較寬的向量,當batch=1時,利用率甚至不足十分之一;



TPU的脈動陣列處理matmul速度極快,但處理LayerNorm、Softmax等小算子時,向量單元不足,大脈動陣列只能閑置;



大模型的預填和解碼階段,預填時計算單元滿負荷運行,解碼階段90%的時間都在等待數(shù)據(jù),利用率難以提升。即便是專門的LPU,也需通過特殊調度硬件才能提高利用率。



最后談談基準測試的誤區(qū),很多廠商宣傳的成績是在最優(yōu)場景下測得的,換為實際負載后表現(xiàn)會大打折扣。



性能結果對軟件棧、精度、模型大小、batch大小、序列長度等因素非常敏感,同一硬件用不同方法測試,結果可能相差數(shù)倍。



例如,許多存算一體的論文僅測試計算單元的峰值,未計入ADC轉換和非matmul算子的開銷;不少NPU只宣傳峰值TOPS,卻不提有多少算子不支持需回退到CPU;



測試大模型時只說每秒處理的tokens數(shù),卻不說明并發(fā)量、尾延遲和上下文長度,這些都是不嚴謹?shù)淖龇ā?/p>





神經(jīng)網(wǎng)絡加速器基準測試的挑戰(zhàn),結果對軟件版本、編譯選項、測量方法高度敏感



總結來說:



無論采用何種架構、應用于何種場景,當前神經(jīng)網(wǎng)絡加速的核心矛盾都不是“算力不足”,而是“數(shù)據(jù)傳輸不暢”。



所有有效的優(yōu)化,本質都是減少不必要的數(shù)據(jù)移動,讓數(shù)據(jù)盡量靠近計算單元。這一邏輯從上個世紀“內存墻”概念提出,到如今AI大爆發(fā),始終未變。



參考:Hardware Acceleration for Neural Networks:A Comprehensive Survey


本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。

免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com