Anthropic 表示,AI 系統正逐步具備在無人干預下設計與建構自身後繼者的能力,呼籲在技術超越社會管理極限之前,建立協調防護措施。
Anthropic 表示,AI 系統正逐步具備在無人干預下設計與建構自身後繼者的能力,呼籲在技術超越社會管理極限之前,建立協調防護措施。

AI 系統正逐步具備在無人干預下設計與建構自身後繼者的能力,Anthropic 表示,並呼籲在技術超越社會管理極限之前,建立協調防護措施。
Anthropic 警告,AI 發展加速超乎預期,其 Claude 模型現已撰寫公司生產代碼庫中超過 80% 的合併代碼——這項里程碑指向遞迴式自我改良(recursive self-improvement),即 AI 系統自主推進自身進化。
「我們始終認為,最好的做法是將這個概念社會化,讓大家大致了解即將到來的情況,」Anthropic 聯合創辦人 Jack Clark 在接受採訪時表示。「這裡的重大訊息是,我們看到的跡象顯示,與某些主流觀點相反,AI 進展在未來幾年將會加速,而非持平或減緩。」
根據 Anthropic 研究所負責人 Marina Favaro 與 Clark 於週四發布的部落格文章,這一轉變使每位工程師每季出貨的代碼量較公司 2021–2025 年基線增加了 8 倍。在缺乏明確規格的複雜工程問題上,Claude 的成功率於 2026 年 5 月攀升至 76%——六個月內躍升 50 個百分點。公司內部的 Mythos Preview 模型在 AI 模型訓練代碼最佳化方面實現了 52 倍加速,而經驗豐富的人類開發者在四至八小時的手動重構中通常只能達到 4 倍改善。
Anthropic 表示,「遞迴式自我改良」可能比多數機構準備好的時間來得更早。該公司呼籲前沿 AI 實驗室之間建立協調機制,以便在風險升級時減緩或暫停開發,並警告單一企業的單方面行動只會轉移領導地位,而非提升全球安全性。「缺乏全球協調機制的情況下,企業與政府將不得不在競爭與地緣政治壓力下,就安全問題做出艱難的決定,」Favaro 與 Clark 寫道。
編碼瓶頸從撰寫轉向審查
Anthropic 內部數據顯示,AI 模型的進步約每四個月翻倍,而非先前觀察到的每七個月。人類在每一步中的角色正逐步縮小。一旦人類與 AI 編寫的代碼品質達到均等——Anthropic 預期這將在一年內發生——人類將完全停止編寫代碼,轉而僅負責審查。但若審查者無法跟上 Claude 的生成速度,人類審查將成為新的瓶頸。
為應對此情況,Anthropic 在其開發流程中部署了一個自動化的 Claude 審查工具,負責分析每個拉取請求中的架構缺陷、安全漏洞及回歸錯誤。回顧性分析顯示,該自動化層級曾抓出約三分之一的生產錯誤,這些錯誤曾導致 claude.ai 網站過往的中斷事件。
在 2026 年 4 月的一個案例中,一名 Anthropic 工程師部署 Claude 來解決一類持續存在的 API 錯誤。該模型自主運作,交付了超過 800 個獨立修復,將錯誤率降低了 1,000 倍。負責監督的工程師估計,一名人類開發者需要花費四年時間才能完成同樣的工作。
治理鴻溝與未來展望
OpenAI 也已發布其關於遞迴式自我改良的研究成果,在 2025 年 12 月的部落格文章中將其描述為一種潛在危險現象,前提是研究人員未能共享相關資訊。該公司正為其安全研究團隊招募一名專注於遞迴式自我改良準備工作的研究員。
Anthropic 計劃在未來數月內召集政策制定者、研究人員、公民社會團體及其他 AI 企業進行討論,探討如何管理風險並改善協調機制。其研究部門 Anthropic 研究所將研究支撐潛在減速所需的系統。
這些影響不僅限於 AI 實驗室。Anthropic 於週一以機密方式向美國提交首次公開募股申請,此前一輪融資對該公司估值達 9,650 億美元。該公司表示,全面的遞迴式自我改良「可能增加人類失去對 AI 系統控制權的風險」。對投資人而言,這種加速引發了關於競爭護城河的疑問:若 AI 能打造更好的 AI,優勢將從專有訓練數據與人類工程人才,轉向算力獲取與對齊研究——而這些正是 Anthropic、OpenAI 與 Google 等資本雄厚的參與者具備結構性優勢的領域。
本文僅供資訊參考,不構成投資建議。