欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<li id="bb3wb"></li>

內存墻困境：AI加速為何不能僅靠堆砌計算單元？

1天前

本文來自微信公眾號：歪睿老哥，作者：歪睿老哥

一提到AI加速，不少人首先想到的就是增加算力、堆砌更多浮點計算單元。

但這種思路其實存在誤區(qū)。

當前AI加速的瓶頸并非計算能力本身，而是數(shù)據(jù)搬運、通信效率以及不規(guī)則算子的處理問題。即便峰值算力再高，如果這些環(huán)節(jié)跟不上，也難以發(fā)揮作用。

以大語言模型推理為例，每生成一個新token，都需要對已存儲的KV緩存進行讀寫操作。這一過程對計算的需求并不高，真正的短板在于內存帶寬——若帶寬不足，即便計算單元數(shù)量再多，也只能等待數(shù)據(jù)從內存緩慢傳輸，大部分時間處于閑置狀態(tài)。

再看當下流行的混合專家模型（MoE），每個token僅由部分專家處理，這種動態(tài)路由的不規(guī)則計算方式，傳統(tǒng)通用硬件難以高效支持。

因此，要運行最新的頂尖模型，無論是訓練還是推理，若缺乏專門的硬件加速優(yōu)化，要么成本高得驚人，要么延遲嚴重到無法實際應用，根本無法落地。

目前，硬件加速領域已全面鋪開，從配備張量核心的通用GPU，到谷歌TPU、手機NPU等專用張量處理器，還有FPGA可重構設計、ASIC專用推理芯片。近期甚至出現(xiàn)了專為大語言模型推理打造的LPU，存算一體、神經(jīng)形態(tài)計算等新技術也在不斷發(fā)展。

這些技術的出現(xiàn)，本質上是剛需推動的結果——沒有它們的加速，如今的AI技術很難從實驗室走向大眾的手機等終端設備。

無論是訓練還是推理，大模型早已將壓力轉移到內存和通信層面，單純堆砌計算單元無法解決問題。下面我們從不同維度拆解瓶頸所在。

首先是功耗與能量瓶頸。

你知道嗎？

移動一個字節(jié)數(shù)據(jù)消耗的能量，比完成一次浮點計算要高出好幾個數(shù)量級。

當前絕大多數(shù)場景中，芯片的功耗大部分都消耗在數(shù)據(jù)搬運上，而非計算過程。

數(shù)據(jù)移動的能耗明顯高于算術運算能耗。

從不同硬件來看：

GPU的功耗基本與內存流量綁定，若不進行算子融合，大部分能量會浪費在寄存器、緩存與顯存之間的數(shù)據(jù)來回搬運上；

TPU/Edge NPU依靠專用數(shù)據(jù)流節(jié)省能量，但一旦工作負載不符合設計預期，需要頻繁訪問片外存儲，能量效率會立刻下降；

ASIC和FPGA雖能通過流水線和片上緩存減少數(shù)據(jù)搬運，但只要模型出現(xiàn)新算子需要回退到CPU，或片上存儲無法容納數(shù)據(jù)導致頻繁交換，能量優(yōu)勢就會消失；

即便是專門針對大模型推理的LPU，以及存算一體、神經(jīng)形態(tài)等新架構，也繞不開KV緩存搬運的能量成本問題——本質仍是數(shù)據(jù)移動的挑戰(zhàn)。

講完功耗，再看大家關注的延遲與吞吐量問題。

很多廠商宣傳峰值TOPS，但實際運行時往往達不到，原因何在？

因為吞吐量和延遲并非僅靠算力堆砌就能提升，瓶頸始終在數(shù)據(jù)端。

LLM推理的預填和解碼階段瓶頸對比，解碼階段明顯受內存帶寬限制

以大語言模型推理為例：整個過程分為預填和解碼兩個階段，預填階段計算密集，解碼階段則完全受帶寬制約。

每生成一個新token，都要讀寫整個KV緩存，數(shù)據(jù)未傳輸完成，計算單元再強也只能等待。

不同硬件的痛點各異：

GPU通過批處理提升吞吐量，但批次越大排隊時間越長，尾延遲難以控制；

TPU/NPU對固定形狀的密集算子處理速度快，但形狀變化、序列變長時，編譯調度跟不上，延遲會大幅上升；

ASIC依靠固定算子實現(xiàn)低延遲，但若遇到不支持的新算子，延遲會直接崩潰；

FPGA可實現(xiàn)確定性低延遲，但路由擁堵和片上內存不足的問題，會導致序列稍長時吞吐量下降；

專門用于LLM推理的LPU，即便將調度集成到硬件中，也無法擺脫一個規(guī)律：上下文越長，需要搬運的KV緩存越多，延遲下限由內存帶寬決定，架構優(yōu)化也無法突破這一物理限制。

接下來是面積與成本瓶頸。

加速器設計中的面積、成本與性能權衡

硅片面積有限，將面積分配給計算單元還是內存，是永恒的權衡問題。

如今越來越多的設計發(fā)現(xiàn)，將面積分配給內存和互聯(lián)，比分配給更多計算單元的回報更高。

例如，在大模型推理中，即便擁有滿片的計算單元，要容納70B模型的權重和KV緩存，也需購買更多卡，即使每張卡的計算利用率僅30%，這筆“容量稅”也不得不交。

采用低延遲SRAM架構的LPU，延遲表現(xiàn)出色，但存儲大模型權重需要堆砌大量芯片，成本極高，非普通用戶所能承受。

新架構也面臨類似問題：存算一體需要大量ADC/DAC周邊電路，這些電路的面積甚至超過計算交叉陣；

神經(jīng)形態(tài)芯片將大量面積用于存儲和路由，處理密集模型時的面積效率遠低于傳統(tǒng)脈動陣列，成本難以收回。

然后是核心的內存與通信瓶頸。

當前端到端性能基本受內存容量、帶寬和通信限制，峰值算力只是一個理論數(shù)字。

大模型訓練和推理中的內存與通信瓶頸，有限的HBM帶寬和互聯(lián)延遲是主要限制因素

訓練時需要存儲激活值、梯度和優(yōu)化器狀態(tài)，大模型的這些數(shù)據(jù)會迅速占滿顯存；

推理時LLM的KV緩存會隨上下文長度和并發(fā)數(shù)線性增長，即便計算能力充足，帶寬不足仍會導致運行卡頓。

分布式訓練中，多卡間的all-reduce操作，通信時間常超過計算時間，互聯(lián)帶寬不足時，增加再多卡也無法提升效率。

不同硬件的具體情況也有差異：

GPU算力增長速度遠快于內存帶寬，“內存墻”問題日益突出；

TPU編譯器若工作集略超片上SRAM容量，性能會急劇下降，比GPU的降級速度更快；

ASIC依靠固定數(shù)據(jù)流節(jié)省帶寬，但遇到Attention這類不規(guī)則訪問時，性能會大幅下降；

LPU進行多芯片互聯(lián)時，需要納秒級同步，普通PCIe無法滿足，必須采用專用互聯(lián)，成本隨之上升；

存算一體雖解決了片外數(shù)據(jù)搬運問題，但片上網(wǎng)絡成為新瓶頸，交叉陣計算完成后數(shù)據(jù)無法及時傳出，計算單元仍會閑置。

最后是資源利用率問題，這一點常被忽視，但對實際體驗影響很大。

不規(guī)則的工作負載，如非結構化稀疏、動態(tài)形狀、MoE路由等，會導致負載不均衡，即便峰值算力很高，實際利用率可能不足一半。

不規(guī)則工作負載導致的負載不均衡與計算單元利用率下降示意圖

例如，小批量推理時，許多ASIC為追求峰值TOPS設計了較寬的向量，當batch=1時，利用率甚至不足十分之一；

TPU的脈動陣列處理matmul速度極快，但處理LayerNorm、Softmax等小算子時，向量單元不足，大脈動陣列只能閑置；

大模型的預填和解碼階段，預填時計算單元滿負荷運行，解碼階段90%的時間都在等待數(shù)據(jù)，利用率難以提升。即便是專門的LPU，也需通過特殊調度硬件才能提高利用率。

最后談談基準測試的誤區(qū)，很多廠商宣傳的成績是在最優(yōu)場景下測得的，換為實際負載后表現(xiàn)會大打折扣。

性能結果對軟件棧、精度、模型大小、batch大小、序列長度等因素非常敏感，同一硬件用不同方法測試，結果可能相差數(shù)倍。

例如，許多存算一體的論文僅測試計算單元的峰值，未計入ADC轉換和非matmul算子的開銷；不少NPU只宣傳峰值TOPS，卻不提有多少算子不支持需回退到CPU；

測試大模型時只說每秒處理的tokens數(shù)，卻不說明并發(fā)量、尾延遲和上下文長度，這些都是不嚴謹?shù)淖龇ā?/p>

神經(jīng)網(wǎng)絡加速器基準測試的挑戰(zhàn)，結果對軟件版本、編譯選項、測量方法高度敏感

總結來說：

無論采用何種架構、應用于何種場景，當前神經(jīng)網(wǎng)絡加速的核心矛盾都不是“算力不足”，而是“數(shù)據(jù)傳輸不暢”。

所有有效的優(yōu)化，本質都是減少不必要的數(shù)據(jù)移動，讓數(shù)據(jù)盡量靠近計算單元。這一邏輯從上個世紀“內存墻”概念提出，到如今AI大爆發(fā)，始終未變。

參考：Hardware Acceleration for Neural Networks:A Comprehensive Survey

本文僅代表作者觀點，版權歸原創(chuàng)者所有，如需轉載請在文中注明來源及作者名字。

免責聲明：本文系轉載編輯文章，僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

守富難逾創(chuàng)富：B先生的財富迷失記

獨家對話｜緣啟智慧CEO鄧江：從銀行碼農(nóng)到AI醫(yī)療創(chuàng)業(yè)者的跨界之路

慣例提價周期缺席威士忌頭部品牌今年集體“失聲”

永旺夢樂城計劃投資15億元升級在華商業(yè)布局

黃金短期回調難改長期配置價值

<mark id="zhyes"></mark>

<cite id="zhyes"><center id="zhyes"></center></cite>