騰訊混元推出稀疏注意力演算法，AI 運算力需求大減 75%

騰訊控股有限公司旗下混元 AI 團隊開發出一套稀疏注意力演算法，能以減少 75% 運算力的代價達到近乎密集注意力的精準度，每年可望為長文脈推論節省數百萬美元的推論成本。

「Stem 從因果資訊流的角度重新審視區塊級稀疏性，這是先前的方法所忽略的，」騰訊混元研究團隊在一份詳述該演算法的技術論文中表示。

該演算法引入兩項創新：Token 位置衰減（Token Position Decay），根據 Token 在序列中的距離加權；以及輸出感知指標（Output-Aware Metric），根據注意力區塊對最終輸出的貢獻來進行選擇。團隊報告指出，在運算子層級，已開源的高效能計算 Stem+BSA 運算子可在 12.8 萬 Token 的上下文視窗下，將首 Token 延遲降低 3.7 倍。

騰訊目前股價約為預期獲利的 20 倍，該公司積極投資其混元模型，以與阿里巴巴集團控股有限公司的通義千問（Qwen）、百度股份有限公司的文心一言（Ernie）及 DeepSeek 競爭。較低的推論成本可望改善騰訊雲端業務的利潤率，並為擁有超過 13 億月活躍用戶的微信提供更具價格競爭力的 AI 功能。

競爭格局加劇

這項效率提升正逢中國 AI 模型競賽進入削減成本階段。DeepSeek 於 2024 年底發布的 V3 模型已證明，以遠低於美國前沿模型的訓練成本，也能實現具有競爭力的表現。騰訊的 Stem 演算法瞄準的是推論端——即模型在生產環境中運行的經常性支出——根據業界估計，推論成本佔已部署應用程式總 AI 工作負載成本的 60% 至 80%。

阿里巴巴的通義千問團隊也已發表稀疏注意力研究，而百度則針對長文脈任務優化其文心一言模型。騰訊決定開源高效能計算 Stem+BSA 運算子，使其做法與眾不同，讓開發者無需專有授權即可整合這些效率提升。

3.7 倍延遲降低的意義

在 12.8 萬 Token 文脈下，首 Token 延遲降低 3.7 倍，對即時應用意義重大。對處理長篇客服對話的微信 AI 代理而言，這意味著回應時間從數十秒縮短至數秒內即可開始。花旗分析師在一份報告中指出，同程旅行控股有限公司可望受益於與騰訊微信 AI 代理的潛在緊密合作，並重申對該股的買入評級。

12.8 萬 Token 的上下文視窗與領先模型相當——OpenAI 的 GPT-4 Turbo 支援 12.8 萬 Token，而 Anthropic 的 Claude 3.5 支援 20 萬 Token。騰訊的演算法可讓混元在長文脈領域取得成本優勢，因為在標準密集注意力機制下，推論成本會隨序列長度呈二次方增長。

投資啟示

對騰訊而言，成本節約將在其 AI 布局中產生複合效應。該公司報告 2024 財年雲端營收為 533 億元人民幣（約 74 億美元），其中 AI 相關工作負載的占比持續成長。在與阿里雲及華為雲競爭的市場中，推論成本每降低一個百分點，都能改善利潤率。

開源策略亦具有戰略邏輯。透過公開釋出高效能計算運算子，騰訊可獲得社群貢獻與生態系統採用——在 Stem 優化基礎架構上進行開發的開發者，更有可能部署混元模型。這與 Meta Platforms 公司旗下 Llama 模型系列的做法如出一轍，該系列已成為採用最廣泛的開源 AI 家族。

本文僅供資訊參考，不構成投資建議。