AI推理正以兩種截然不同的方式重塑記憶體需求。 GPU HBM中的KV快取卸載至基於SSD的儲存艙,為企業級SSD創造了一個新的次級市場;同時,代理型AI工作負載正將CPU與GPU的比例推向1:1,帶動LPDRAM需求超越傳統伺服器記憶體範疇。
AI推理正以兩種截然不同的方式重塑記憶體需求。 GPU HBM中的KV快取卸載至基於SSD的儲存艙,為企業級SSD創造了一個新的次級市場;同時,代理型AI工作負載正將CPU與GPU的比例推向1:1,帶動LPDRAM需求超越傳統伺服器記憶體範疇。

從AI訓練轉向推理的趨勢正重塑記憶體產業,其影響遠超出HBM範疇。KV快取卸載與代理型AI工作負載,分別為企業級SSD和LPDRAM創造了兩個截然不同的成長市場。
「AI的記憶系統將徹底改變儲存系統,」Nvidia創辦人暨執行長黃仁勳在2026年6月GTC台北大會上表示,並稱記憶體基礎設施是AI堆疊中最具挑戰性的環節之一。
此結構性轉變由兩股力量驅動。首先,推理工作負載引發了KV快取需求的爆發式增長——這是一種動態記憶體,在預填充階段儲存鍵值向量,以避免解碼階段進行重複運算。Nvidia數據顯示,自2024年下半年以來,每次查詢的平均輸出token數量每年增長超過五倍,目前已達約30,000至40,000個token。當GPU HBM容量耗盡時,系統必須丟棄快取並重新運算,從而提高延遲與總擁有成本。
為了解決此問題,Nvidia於2025年3月發布Dynamo軟體,將較少存取的KV快取卸載至更便宜的記憶體層級,包括CPU DRAM和SSD。2026年1月,該公司接著推出由BlueField-4 DPU管理的CMX Context Memory Storage Platform。每個機架使用64顆BlueField-4 DPU來管理約9,600 TB的容量,並在本地SSD與共享儲存之間,插入一個全新的「G3.5」艙級上下文儲存層。在2026年台北國際電腦展上,Nvidia的BlueField-4 DPU結構模型中已包含SK海力士PEB210 E1.S及PE9010 M.2 SSD樣品,顯示SSD儲存艙次級市場正從概念邁向硬體實作。
代理型AI重塑CPU記憶體需求
第二股驅動力來自代理型AI。在此模式下,模型必須主動規劃、調用工具、做出決策並執行代理循環——所有這些任務均由CPU處理。黃仁勳曾表示,代理存在於奈秒級的世界中,超低延遲至關重要,進而提升了CPU架構的重要性。
TrendForce估計,隨著代理型AI部署規模擴大,CPU與GPU的工作負載比例將從傳統的1:4或1:8,趨向約1:1,為CPU附接記憶體帶來顯著的增量需求。Nvidia於2026年針對代理型工作負載推出的Vera CPU,支援高達1.5 TB的LPDDR5X,容量為前一代Grace的三倍。
然而,TrendForce報告指出,Nvidia已削減下一代Vera Rubin超級晶片模組上的SOCAMM記憶體容量,原因在於供應商2027年的初步生產計畫中,分配給Nvidia的LPDRAM容量不足。此調整反映的是近期的供應限制,而非Nvidia整體記憶體需求的減少。
更廣泛的CPU市場正為代理型AI經歷自身世代的更新。Intel推出Xeon 6+(Clearwater Forest),AMD發表EPYC Venice,Arm推出Arm AGI CPU,而Ampere的AmpereOne MX預計於今年投產。多家供應商的競爭正加速整體產業的CPU記憶體需求增長。
投資啟示
對記憶體投資人而言,這兩大趨勢指向了HBM之外的成長市場。隨著Nvidia、Google及其他平台供應商推出SSD儲存艙架構,企業級SSD正從KV快取卸載中獲得新的需求動能。與此同時,代理型AI推動伺服器架構趨向CPU-GPU平衡配置,LPDRAM正經歷來自CPU端的結構性需求擴張。
Nvidia Vera Rubin所指出的供應限制,暗示近期LPDRAM產能可能偏緊,這將有利於掌握大部分LPDRAM產能的既有記憶體製造商,包括SK海力士、三星電子和美光科技。對SSD製造商而言,AI基礎設施中專用上下文儲存層的出現,代表一個兩年前尚不存在的新潛在市場。
本文僅供資訊參考,不構成投資建議。