重點摘要:
- Pulsar 16B 以 161.5 億總參數達到 300 億參數等級的推理能力
- 在 AIME 2025 獲得 87.22 分,與未壓縮的基礎模型持平
- 在 Nvidia Blackwell GPU 上運行速度比基礎模型快 43%
重點摘要:

Multiverse Computing 的開源模型 Pulsar 16B 以約為同級模型一半的參數量,實現了前沿等級的推理效能,並在 Nvidia 加速基礎設施上獲得驗證。
Multiverse Computing 的 Pulsar 16B 僅以 161.5 億總參數及 31 億活躍參數,即達到 300 億參數模型的推理表現,將運算資源需求減少近一半,同時在數學、科學與程式編寫等任務的基準評測分數保持不變。
「在本地端運行先進 AI 以往總需要在模型規模或效能上妥協,」Multiverse Computing 共同創辦人兼執行長 Enrique Lizaso 表示。「我們透過 Pulsar 16B 所展示的是,前沿等級的推理能力現在可以在沒有雲端級基礎設施負擔的情況下部署,以企業真正能夠經濟化運行與擴展的規模實現。」
Pulsar 16B 建構於 Nvidia Nemotron 3 Nano 的壓縮版本(一種結合 Mamba2-Transformer 與混合專家架構的模型),在 AIME 2025 數學推理基準中獲得 87.22 分,與未壓縮、參數達 316 億的基礎模型僅差 0.1 分,並領先 gpt-oss-20B 達 15 分。在博士級科學基準 GPQA-Diamond 上,其得分為 71.41,與未壓縮模型持平,並超越 gpt-oss-20B 的 58.88 分。此外,該模型在指令遵循與函式呼叫這兩項指標上,分別領先 gpt-oss-20B 達 14 分與 11 分。
效率提升直接轉化為更低的部署成本。在一張處理 32 個並行請求的 Nvidia Blackwell GPU 上,Pulsar 16B 以 FP8 精度達到每秒 4,808 個 token 的系統吞吐量,較基礎模型的每秒 3,363 個 token 提升 43%,同時將首個 token 生成時間從 2.18 秒縮短至 1.24 秒。對於運行高並行代理工作流程或持續處理長篇文件的企業而言,GPU 採購與能源成本的節省可能相當可觀。
記憶體與推論優勢
在所有支援的精度格式(BF16、FP8 及 NVFP4)下,Pulsar 16B 與 Nemotron-3-Nano-30B-A3B 基礎模型相比,均實現了模型權重記憶體的顯著減少。這項壓縮是透過 Multiverse Computing 的 CompactifAI 技術,結合 Nvidia 的 Model Optimizer 與 Megatron Bridge 函式庫達成,無需從頭開始重新訓練。該公司識別並移除了已訓練網路中的數學冗餘,同時保留了訓練過程中習得的推理行為。
長上下文表現——通常是激進壓縮下首當其衝的犧牲品——仍然保持完整。根據 Multiverse Computing 在 LongBench、AA-LCR、RULER 系列及 NIAH 變體上的評估,在 100,000 個 token 兩側的「大海撈針」檢索任務中,其表現基本完美,而 Pulsar 16B 在較長上下文長度下的更難 RULER 任務中,也與未壓縮的基礎模型表現相近。
競爭影響
該模型的發布對其他開源模型開發者——包括 gpt-oss-20B 及類似中型架構的開發者——形成了壓力,要求其展現出可比的效率提升。對 Nvidia 而言,此次合作強化了其專為推論優化的 Blackwell 硬體的價值:在同一張 GPU 上運行速度快 43% 的模型,為評估 Nvidia 基礎設施的企業客戶創造了更強的投資回報理由。作為 Nvidia Inception 計畫成員的 Multiverse Computing,服務超過 100 家全球客戶,包括 Iberdrola、Bosch 及加拿大銀行,使其處於有利位置,能夠抓住受監管行業對於數據從不離開本地基礎設施之主權 AI 部署的需求。
Pulsar 16B 已在 Hugging Face 上以 Apache 2.0 授權發布。該模型專為單節點設置、本地端環境及延遲敏感型系統設計,在這些場景中,前沿等級推理的成本以往是令人卻步的。
本文僅供資訊參考,不構成投資建議。