騰訊混元團隊開源了一套演算法,僅需四分之一運算力即可達到密集注意力之精準度,這項突破可望大幅削減長文脈 AI 推論成本。
騰訊混元團隊開源了一套演算法,僅需四分之一運算力即可達到密集注意力之精準度,這項突破可望大幅削減長文脈 AI 推論成本。

騰訊控股有限公司旗下混元 AI 團隊開發出一套稀疏注意力演算法,能以減少 75% 運算力的代價達到近乎密集注意力的精準度,每年可望為長文脈推論節省數百萬美元的推論成本。
「Stem 從因果資訊流的角度重新審視區塊級稀疏性,這是先前的方法所忽略的,」騰訊混元研究團隊在一份詳述該演算法的技術論文中表示。
該演算法引入兩項創新:Token 位置衰減(Token Position Decay),根據 Token 在序列中的距離加權;以及輸出感知指標(Output-Aware Metric),根據注意力區塊對最終輸出的貢獻來進行選擇。團隊報告指出,在運算子層級,已開源的高效能計算 Stem+BSA 運算子可在 12.8 萬 Token 的上下文視窗下,將首 Token 延遲降低 3.7 倍。
騰訊目前股價約為預期獲利的 20 倍,該公司積極投資其混元模型,以與阿里巴巴集團控股有限公司的通義千問(Qwen)、百度股份有限公司的文心一言(Ernie)及 DeepSeek 競爭。較低的推論成本可望改善騰訊雲端業務的利潤率,並為擁有超過 13 億月活躍用戶的微信提供更具價格競爭力的 AI 功能。
競爭格局加劇
這項效率提升正逢中國 AI 模型競賽進入削減成本階段。DeepSeek 於 2024 年底發布的 V3 模型已證明,以遠低於美國前沿模型的訓練成本,也能實現具有競爭力的表現。騰訊的 Stem 演算法瞄準的是推論端——即模型在生產環境中運行的經常性支出——根據業界估計,推論成本佔已部署應用程式總 AI 工作負載成本的 60% 至 80%。
阿里巴巴的通義千問團隊也已發表稀疏注意力研究,而百度則針對長文脈任務優化其文心一言模型。騰訊決定開源高效能計算 Stem+BSA 運算子,使其做法與眾不同,讓開發者無需專有授權即可整合這些效率提升。
3.7 倍延遲降低的意義
在 12.8 萬 Token 文脈下,首 Token 延遲降低 3.7 倍,對即時應用意義重大。對處理長篇客服對話的微信 AI 代理而言,這意味著回應時間從數十秒縮短至數秒內即可開始。花旗分析師在一份報告中指出,同程旅行控股有限公司可望受益於與騰訊微信 AI 代理的潛在緊密合作,並重申對該股的買入評級。
12.8 萬 Token 的上下文視窗與領先模型相當——OpenAI 的 GPT-4 Turbo 支援 12.8 萬 Token,而 Anthropic 的 Claude 3.5 支援 20 萬 Token。騰訊的演算法可讓混元在長文脈領域取得成本優勢,因為在標準密集注意力機制下,推論成本會隨序列長度呈二次方增長。
投資啟示
對騰訊而言,成本節約將在其 AI 布局中產生複合效應。該公司報告 2024 財年雲端營收為 533 億元人民幣(約 74 億美元),其中 AI 相關工作負載的占比持續成長。在與阿里雲及華為雲競爭的市場中,推論成本每降低一個百分點,都能改善利潤率。
開源策略亦具有戰略邏輯。透過公開釋出高效能計算運算子,騰訊可獲得社群貢獻與生態系統採用——在 Stem 優化基礎架構上進行開發的開發者,更有可能部署混元模型。這與 Meta Platforms 公司旗下 Llama 模型系列的做法如出一轍,該系列已成為採用最廣泛的開源 AI 家族。
本文僅供資訊參考,不構成投資建議。