重點摘要:
- 小米MiMo-V2.5-Pro-UltraSpeed在標準GPU上超過每秒1,000個Token
- 速度來自FP4量化與透過TileRT實現的DFlash投機解碼
- API試用期為6月9日至23日,收費為標準費率3倍,生成速度約為10倍
重點摘要:

小米MiMo-V2.5-Pro-UltraSpeed在標準GPU上突破每秒1,000個Token——比GPT-5.5快15倍——僅靠軟體實現。
小米MiMo-V2.5-Pro-UltraSpeed在單一8 GPU商用節點上突破每秒1,000個Token,比GPT-5.5快15倍,無需使用客製化晶片——這項里程碑重塑了業界對推論成本與可及性的假設。
「極致的模型與系統協同設計是實現這一切的關鍵,」小米在公告中表示。根據Artificial Analysis的數據,GPT-5.5每秒運行68個Token,Claude Opus 4.6為71個Token,而MiMo-V2.5-Pro在程式碼基準測試上與Opus表現相當。
速度來自兩項協同技術。FP4量化將模型的專家層——即其1兆個參數中的大部分——壓縮至4位元精度,大幅減少記憶體佔用,同時將品質損失控制在接近零。DFlash投機解碼在一次前向傳遞中填滿一整塊遮罩位置,在程式碼任務中,模型每輪驗證可接受6.3個(共8個)提議Token。推論引擎TileRT讓整個管線駐留在GPU內部,消除了每次運算符啟動的開銷。
Cerebras在Meta的Llama 3.1 405B(一個規模不到一半的模型)上達到每秒969個Token,使用的是餐盤大小的晶圓級晶片。Groq的客製化LPU架構最高可達每秒300至750個Token。兩者都無法在標準雲端服務商提供的硬體上運行。小米的方案可以,且收費為標準MiMo費率的3倍,生成速度約為10倍。API試用期為6月9日至6月23日。
這項成就的意義遠超數字本身。在每秒1,000個Token的速度下,原本每秒68個Token無法滿足的嚴格延遲限制應用——如詐騙偵測、即時交易訊號、平行推理鏈、即時代理循環——都變得可行。MiMo-V2.5-Pro在多數程式碼基準測試上已與Claude Opus匹敵,成本卻僅為其一小部分:每百萬Token輸入約0.43美元、輸出約0.87美元,而Opus分別為5美元和25美元。
這項技術路線的引人注目之處在於它不需要什麼。Cerebras設計了配備44GB晶片內記憶體的晶圓級晶片,以消除拖慢GPU推論的頻寬瓶頸。Groq則打造了客製化語言處理單元。小米使用的是商用GPU——與AWS上可取得的硬體相同——並透過模型層級最佳化及專用推論引擎解決了問題。
FP4量化具有針對性:僅壓縮專家層,其餘部分保持完整精度。DFlash跳過了標準投機解碼中使用的逐步草稿步驟,一次性提議整塊Token。TileRT則將兩者串聯起來,透過讓運算管線持續駐留,消除了正常情況下拖慢生成的執行間隙。
小米(01810.HK)一直以來大多在業界關注範圍之外建構AI能力。MiMo-V2.5-Pro於4月推出,在基準測試上以極低成本媲美前沿模型。UltraSpeed加速的是同一個模型——而非精簡版本——且FP4-DFlash檢查點已在Hugging Face上開源,供社群測試。
如果獨立基準測試證實了這些速度數據,那麼小米已在標準硬體上,以軟體方式實現了Cerebras和Groq需要耗資數億美元投入客製化晶片才能達成的成果。這將改變哪些公司能夠在生產環境中部署萬億參數模型——以及需要付出何種成本——的計算方式。
本文僅供資訊參考,不構成投資建議。