小米突破每秒千Token，萬億參數AI模型震撼業界

小米MiMo-V2.5-Pro-UltraSpeed在標準GPU上突破每秒1,000個Token——比GPT-5.5快15倍——僅靠軟體實現。

小米MiMo-V2.5-Pro-UltraSpeed在單一8 GPU商用節點上突破每秒1,000個Token，比GPT-5.5快15倍，無需使用客製化晶片——這項里程碑重塑了業界對推論成本與可及性的假設。

「極致的模型與系統協同設計是實現這一切的關鍵，」小米在公告中表示。根據Artificial Analysis的數據，GPT-5.5每秒運行68個Token，Claude Opus 4.6為71個Token，而MiMo-V2.5-Pro在程式碼基準測試上與Opus表現相當。

速度來自兩項協同技術。FP4量化將模型的專家層——即其1兆個參數中的大部分——壓縮至4位元精度，大幅減少記憶體佔用，同時將品質損失控制在接近零。DFlash投機解碼在一次前向傳遞中填滿一整塊遮罩位置，在程式碼任務中，模型每輪驗證可接受6.3個（共8個）提議Token。推論引擎TileRT讓整個管線駐留在GPU內部，消除了每次運算符啟動的開銷。

Cerebras在Meta的Llama 3.1 405B（一個規模不到一半的模型）上達到每秒969個Token，使用的是餐盤大小的晶圓級晶片。Groq的客製化LPU架構最高可達每秒300至750個Token。兩者都無法在標準雲端服務商提供的硬體上運行。小米的方案可以，且收費為標準MiMo費率的3倍，生成速度約為10倍。API試用期為6月9日至6月23日。

這項成就的意義遠超數字本身。在每秒1,000個Token的速度下，原本每秒68個Token無法滿足的嚴格延遲限制應用——如詐騙偵測、即時交易訊號、平行推理鏈、即時代理循環——都變得可行。MiMo-V2.5-Pro在多數程式碼基準測試上已與Claude Opus匹敵，成本卻僅為其一小部分：每百萬Token輸入約0.43美元、輸出約0.87美元，而Opus分別為5美元和25美元。

這項技術路線的引人注目之處在於它不需要什麼。Cerebras設計了配備44GB晶片內記憶體的晶圓級晶片，以消除拖慢GPU推論的頻寬瓶頸。Groq則打造了客製化語言處理單元。小米使用的是商用GPU——與AWS上可取得的硬體相同——並透過模型層級最佳化及專用推論引擎解決了問題。

FP4量化具有針對性：僅壓縮專家層，其餘部分保持完整精度。DFlash跳過了標準投機解碼中使用的逐步草稿步驟，一次性提議整塊Token。TileRT則將兩者串聯起來，透過讓運算管線持續駐留，消除了正常情況下拖慢生成的執行間隙。

小米（01810.HK）一直以來大多在業界關注範圍之外建構AI能力。MiMo-V2.5-Pro於4月推出，在基準測試上以極低成本媲美前沿模型。UltraSpeed加速的是同一個模型——而非精簡版本——且FP4-DFlash檢查點已在Hugging Face上開源，供社群測試。

如果獨立基準測試證實了這些速度數據，那麼小米已在標準硬體上，以軟體方式實現了Cerebras和Groq需要耗資數億美元投入客製化晶片才能達成的成果。這將改變哪些公司能夠在生產環境中部署萬億參數模型——以及需要付出何種成本——的計算方式。

本文僅供資訊參考，不構成投資建議。