AI推理重塑記憶體需求，催生兩大新興成長市場

從AI訓練轉向推理的趨勢正重塑記憶體產業，其影響遠超出HBM範疇。KV快取卸載與代理型AI工作負載，分別為企業級SSD和LPDRAM創造了兩個截然不同的成長市場。

「AI的記憶系統將徹底改變儲存系統，」Nvidia創辦人暨執行長黃仁勳在2026年6月GTC台北大會上表示，並稱記憶體基礎設施是AI堆疊中最具挑戰性的環節之一。

此結構性轉變由兩股力量驅動。首先，推理工作負載引發了KV快取需求的爆發式增長——這是一種動態記憶體，在預填充階段儲存鍵值向量，以避免解碼階段進行重複運算。Nvidia數據顯示，自2024年下半年以來，每次查詢的平均輸出token數量每年增長超過五倍，目前已達約30,000至40,000個token。當GPU HBM容量耗盡時，系統必須丟棄快取並重新運算，從而提高延遲與總擁有成本。

為了解決此問題，Nvidia於2025年3月發布Dynamo軟體，將較少存取的KV快取卸載至更便宜的記憶體層級，包括CPU DRAM和SSD。2026年1月，該公司接著推出由BlueField-4 DPU管理的CMX Context Memory Storage Platform。每個機架使用64顆BlueField-4 DPU來管理約9,600 TB的容量，並在本地SSD與共享儲存之間，插入一個全新的「G3.5」艙級上下文儲存層。在2026年台北國際電腦展上，Nvidia的BlueField-4 DPU結構模型中已包含SK海力士PEB210 E1.S及PE9010 M.2 SSD樣品，顯示SSD儲存艙次級市場正從概念邁向硬體實作。

代理型AI重塑CPU記憶體需求

第二股驅動力來自代理型AI。在此模式下，模型必須主動規劃、調用工具、做出決策並執行代理循環——所有這些任務均由CPU處理。黃仁勳曾表示，代理存在於奈秒級的世界中，超低延遲至關重要，進而提升了CPU架構的重要性。

TrendForce估計，隨著代理型AI部署規模擴大，CPU與GPU的工作負載比例將從傳統的1:4或1:8，趨向約1:1，為CPU附接記憶體帶來顯著的增量需求。Nvidia於2026年針對代理型工作負載推出的Vera CPU，支援高達1.5 TB的LPDDR5X，容量為前一代Grace的三倍。

然而，TrendForce報告指出，Nvidia已削減下一代Vera Rubin超級晶片模組上的SOCAMM記憶體容量，原因在於供應商2027年的初步生產計畫中，分配給Nvidia的LPDRAM容量不足。此調整反映的是近期的供應限制，而非Nvidia整體記憶體需求的減少。

更廣泛的CPU市場正為代理型AI經歷自身世代的更新。Intel推出Xeon 6+（Clearwater Forest），AMD發表EPYC Venice，Arm推出Arm AGI CPU，而Ampere的AmpereOne MX預計於今年投產。多家供應商的競爭正加速整體產業的CPU記憶體需求增長。

投資啟示

對記憶體投資人而言，這兩大趨勢指向了HBM之外的成長市場。隨著Nvidia、Google及其他平台供應商推出SSD儲存艙架構，企業級SSD正從KV快取卸載中獲得新的需求動能。與此同時，代理型AI推動伺服器架構趨向CPU-GPU平衡配置，LPDRAM正經歷來自CPU端的結構性需求擴張。

Nvidia Vera Rubin所指出的供應限制，暗示近期LPDRAM產能可能偏緊，這將有利於掌握大部分LPDRAM產能的既有記憶體製造商，包括SK海力士、三星電子和美光科技。對SSD製造商而言，AI基礎設施中專用上下文儲存層的出現，代表一個兩年前尚不存在的新潛在市場。

本文僅供資訊參考，不構成投資建議。