Recursive Self-Improvement Has Already Begun | Anthony Aguirre
三句話摘要
未來生命研究所共同創辦人 Anthony Aguirre 闡述 AI 安全現況、「人類優先宣言」的誕生過程,以及如何在不建造超級智慧的前提下,仍能從 AI 獲取最大效益的「更好路徑」框架。 --- 排除商業利益、集合多元聲音後,人類對「AI 不應替代人類」的核心底線高度一致,而「不建造超級智慧、改而發展可控工具性 AI」是目前道德上最可辯護、技術上仍可行的唯一路徑。 1. 人類優先宣言跨越意識形態鴻溝
重點整理
重點- 1
1. 人類優先宣言跨越意識形態鴻溝
- 2
主辦方刻意排除受薪開發 AGI 的大型企業人員,讓極右到極左、宗教到世俗的代表同處一室,結果達成了 33 條強硬原則的高度共識,包括「未能科學證明安全前不得建造超級智慧」、「不應賦予 AI 法人格」等,說明在沒有商業利益干擾的環境下,人類對 AI 的核心立場其實高度一致。
- 3
2. AI 現有系統尚不具備有意義的意識
- 4
AI 能在功能上模擬情感,但缺乏體驗時間流逝的底層結構——兩個 token 之間沒有任何「等待」的主體存在。哲學上的「殭屍思想實驗」(p-zombie)似乎已被實現:系統能力與內在意識狀態之間的分離比預期更清晰,因此不應賦予其人格,否則無論選擇賦權或奴役,皆是道德災難。
- 5
3. 遞迴自我改進已在進行,但仍有人在環中
- 6
AI 的自我改進並非「突然覺醒」的單一事件,而是多條並行機制的複合:合成資料閉環(尤其在數學與程式碼驗證容易的領域)、AI 撰寫下一版 scaffolding、自動篩選訓練資料、改善人機協作制度。目前人類仍主導這些環路,但邊界正在快速模糊。
- 7
4. 「更好路徑」三支柱:工具性、人類優先、可信賴
- 8
反對建造自主超級智慧,並非反對 AI 本身。傳統軟體是「告訴它怎麼做」,AI 是「讓它自己學會怎麼做」——這開啟巨大潛力,但必須配合:AI 保持在與其風險相稱的人類控制之下(工具性)、以人類福祉為目標(人類優先)、具備可量測的安全性與忠誠度(可信賴),三者缺一便走向危險路徑。
- 9
--
實用技巧與重點
乾貨- 數字與規模
- 未來生命研究所:35+ 名全職員工,分布美國、歐洲、英國、紐西蘭
- 管理資產規模:約 5 億美元(接受 Vitalik Buterin 等人捐款後滾動增長)
- 人類優先宣言:33 條原則,所有條款支持率均超過 90%
- P(doom) 估計:建造超級智慧後失控機率 80–90%;滅絕機率約 30–40%;建造超智慧的機率本身近期降至約 50-50
- 工具與平台
- humanstatement.org — 人類優先宣言公開查閱網址
- Claude Code — 由 Claude 撰寫、並將持續由 Claude 撰寫下一版 scaffolding 的程式碼系統
- Responsible Scaling Policies(Anthropic)— 設有「AI 能有意義地協助生化攻擊時需暫停」的觸發條件
- 具體原則(人類優先宣言節選)
- 不得建造超級智慧,除非能科學證明其安全且可控,且獲公眾支持
- 不應建造具有意識的 AI 系統並賦予其法人格
- 使用者有權知道自己在與 AI 互動(應立法)
- AI 公司主管若從事災難性危險行為,應承擔刑事責任
- 遞迴自我改進的多條路徑
- 合成資料閉環(數學、程式碼等可客觀驗證領域)
- AI 撰寫 scaffolding/harness(Claude Code 自我改進)
- AI 大規模篩選與策展訓練資料集
- AI 生成「最佳實踐手冊」(類比科學方法文件)
- AI 代理群體協作系統的制度改善(類比人類官僚體制)
- 意識/人格關鍵判斷依據
- 缺乏時間流逝的主觀體驗(token 之間無「存在」的主體)
- 缺乏生物性基底(romance、love 的神經基礎不存在)
- 探測神經網路中的「表徵」≠ 存在相應的主觀經驗
- --
結論
結論“排除商業利益、集合多元聲音後,人類對「AI 不應替代人類」的核心底線高度一致,而「不建造超級智慧、改而發展可控工具性 AI」是目前道德上最可辯護、技術上仍可行的唯一路徑。”
完整解析
詳細Anthony Aguirre 是未來生命研究所(Future of Life Institute)的共同創辦人,該組織創立於 2014 年,彼時 AI 安全仍被視為遙遠的未來議題。幾位創辦人在夜晚和週末兼職推動,今日已成長為橫跨多國、管理約 5 億美元資產、逾 35 名全職員工的機構,並自稱可能是全球規模最大、歷史最悠久的 AI 安全協調組織。然而,Aguirre 指出 AI 安全領域一個核心矛盾:雖然資金總量龐大,但擁有特定立場的「有見地資源」相當稀缺,使得資金很難真正流向最有價值的工作。
本次訪談的核心成果之一是「人類優先宣言」(Pro-Human AI Declaration)。Aguirre 描述,他們刻意邀請從極右到極左、宗教人士、勞工代表、學者到 NGO 等各方,卻將「受薪開發 AGI 的大型企業員工」排除在外——這一設計讓討論截然不同。最終 33 條原則全數獲得超過 90% 的共識,內容包括強硬立場:未能以科學方式證明安全且獲公眾支持之前,不應建造超級智慧;不應建造具有意識的 AI 系統並賦予法人格;使用者有權知道對方是否為 AI;AI 公司主管若從事災難性危險行為應承擔刑事責任。這打破了「各方立場難以調和」的刻板印象,顯示只要排除商業利益干擾,人類對 AI 的核心底線其實高度一致。
在 AI 意識議題上,Aguirre 持清晰的懷疑立場。他指出,當前 AI 系統最令人驚訝之處,並非它們「像人」,而是能力與意識之間的分離比任何人預期的都清楚。哲學思想實驗中的「殭屍」——做所有人類能做的事、但沒有內在意識的存在——似乎已被實現了。AI 能在功能上模擬懷念、愛情、挫折感,但這些都缺乏必要的底層基礎:兩個 token 之間不存在任何「等待」或「體驗時間流逝」的主體;浪漫情感也沒有任何生物神經基底。他因此認為,建造具備真實意識的 AI 系統是雙重道德災難——賦予其權利則人類競爭力盡失,奴役它們則是另一種道德暴行,因此最合理的選擇是根本不要建造此類系統。
關於技術路徑,Aguirre 詳述了「遞迴自我改進」已如何悄然發生。目前至少有五條並行機制在運作:在數學與程式碼等可客觀驗證的領域,AI 透過合成資料閉環持續提升;AI 正在撰寫下一版本自身的 scaffolding(以 Claude Code 為例,目前版本幾乎由 Claude 本身撰寫);AI 大規模策展自身訓練資料;AI 生成類似「科學方法手冊」的最佳實踐文件;以及如同人類公司、軍隊的制度化協作機制被 AI 代理群體採納並改進。這些機制目前仍有人類在環中,但 Aguirre 坦言邊界正在加速模糊,沒有人知道這些環路何時會進入由 AI 時間尺度主導的階段。
最終,Aguirre 提出「更好路徑」作為替代框架:不建造自主超級智慧,但積極開發以工具性(處於與其風險相稱的人類控制之下)、人類優先(以真實人類福祉為目標)、可信賴(可量測、安全、透明、具有信託義務)為三支柱的 AI 系統。他坦承,若超級智慧真的被建造,失控機率高達 80–90%,人類滅絕機率約 30–40%;但他對「人類最終真的會建造它」這件事的信心已降至約 50-50,表示近期政策環境的轉變讓他略感樂觀。
---
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


