重點摘要:
- Anthropic的Claude Sonnet 5在知識工作基準測試上與Opus 4.8匹敵,成本降低60%
- 該模型在自主編碼測試中得分63.2%,高於Sonnet 4.6的58.1%,接近Opus 4.8的69.2%
- 推出之際,Anthropic已申請IPO,營收年化達470億美元,估值9650億美元
重點摘要:

Anthropic新推出的中階模型以約一半的成本,提供接近旗艦等級的自主代理效能。
Anthropic於週二發布Claude Sonnet 5,這款中階AI模型在知識工作基準測試上與其旗艦產品Opus 4.8不相上下,且每Token成本降低60%,在公司衝刺首次公開募股之際,加劇了企業AI領域的價格戰。
AI驅動的程式碼編輯器Cursor共同創辦人Sualeh Asif表示:「有了Claude Sonnet 5,代理程式能維持在計劃內、遵循我們的慣例,並交付乾淨的多步驟變更,而且成本高效。」
Sonnet 5在自主編碼基準測試SWE-bench Pro中得分63.2%,高於Sonnet 4.6的58.1%,並逼近Opus 4.8的69.2%。在知識工作評估GDPval-AA v2上,它超越了旗艦模型——1,618分對比1,615分——而價格方面,截至8月31日,每百萬輸入Token定價2美元,每百萬輸出Token定價10美元,相比之下Opus 4.8分別為5美元和25美元。該模型採用更新的分詞器,可根據內容將輸入擴展1.0至1.35倍,Anthropic表示這項變動在推廣期間校準為「大致成本中性」。
此次發布正值Anthropic加速邁向今年稍晚的IPO,該公司已於6月1日秘密提交S-1文件。在5月以9650億美元估值完成650億美元的H輪融資後,該公司報告營收年化率達470億美元,這使得Sonnet系列將實驗性使用轉化為生產規模營收的能力,成為公開市場投資人的關鍵指標。
自主代理能力成為新基準
Sonnet 5強調自主任務執行——包括規劃、工具使用及多步驟工作流程完成——反映了AI產業更廣泛的轉變。OpenAI上週推出GPT-5.6 Sol預覽版,具備類似子代理功能;Google於5月發布的Gemini 3.5 Flash,則被定位為需要最少人工輸入的自主代理工具。如今的差異化不再在於哪家企業能打造自主代理模型,而在於誰能以足夠低廉的成本將其投入生產規模部署。
早期合作夥伴回報,Sonnet 5能完成先前模型停滯不前的複雜任務。Zapier資深工程師Daniel Shepard表示,該模型完成了一項兩步驟自動化工作——更新Salesforce帳戶層級並向企業聯絡人發送發布公告——而這項任務在以往版本中「常常中途卡住」。在另一項編碼評估Terminal-Bench 2.1中,Sonnet 5得分80.4%,而Sonnet 4.6為67.0%,Opus 4.8為82.7%。
安全取捨與IPO敘事
Anthropic表示,Sonnet 5的幻覺和諂媚比率低於其前代產品,且更能抵抗提示注入攻擊。然而,在與Mozilla共同建立的Firefox 147漏洞開發評估中,Sonnet 5顯示出13.2%的部分成功率,高於Sonnet 4.6的8.8%,儘管兩個模型均未產生可運行的漏洞程式。Opus 4.8得分68.8%,而受限制的Mythos 5得分88.4%。Anthropic推出Sonnet 5時預設啟用即時網路安全防護,與Opus 4.7和4.8的保護措施一致。
這一定價策略同時也服務於Anthropic IPO敘事的雙重目的。該公司需要證明,其較便宜的模型能夠從數千家企業客戶中驅動高流量、經常性的API營收——而不僅是來自開發者的實驗性使用。D.A. Davidson科技研究主管Gil Luria對CNBC表示,雖然Anthropic「似乎在AI前沿模型領域佔據領先地位,但其當前大部分使用量來自試驗和實驗,而這可能無法持續。」
就在昨日,加州州長Gavin Newsom宣布一項合作夥伴關係,以五折優惠向所有州政府機構提供Claude,並附帶免費員工培訓——這類持久且制度化的採用模式,可望鎖定經常性營收。Anthropic面臨來自OpenAI的競爭——該公司於3月以8520億美元估值籌集1220億美元,並正在推進自身的IPO——以及Google、Meta和資金雄厚的亞洲AI新創公司,後者正在開發類似功能。
Anthropic股票尚未公開交易。該公司的S-1文件一旦公開,將面臨審視:究竟是較便宜但高流量的Sonnet系列,還是昂貴但高利潤的Opus系列,將貢獻大部分毛利。正如PitchBook分析師Harrison Rolfes向CNBC所言,2026年的IPO窗口「若非將成為自網路時代以來最具影響力的IPO週期,就是公開市場曾經教導過關於敘事與基本面之間最昂貴的一課。」
本文僅供資訊參考,不構成投資建議。