Recursive Self-Improvement Has Already Begun | Anthony Aguirre

The Roman Forum with Roman Yampolskiy·6月19日週五·94 min英文

三句話摘要

未來生命研究所共同創辦人 Anthony Aguirre 闡述 AI 安全現況、「人類優先宣言」的誕生過程，以及如何在不建造超級智慧的前提下，仍能從 AI 獲取最大效益的「更好路徑」框架。 --- 排除商業利益、集合多元聲音後，人類對「AI 不應替代人類」的核心底線高度一致，而「不建造超級智慧、改而發展可控工具性 AI」是目前道德上最可辯護、技術上仍可行的唯一路徑。 1. 人類優先宣言跨越意識形態鴻溝

重點整理

重點

1
1. 人類優先宣言跨越意識形態鴻溝
2
主辦方刻意排除受薪開發 AGI 的大型企業人員，讓極右到極左、宗教到世俗的代表同處一室，結果達成了 33 條強硬原則的高度共識，包括「未能科學證明安全前不得建造超級智慧」、「不應賦予 AI 法人格」等，說明在沒有商業利益干擾的環境下，人類對 AI 的核心立場其實高度一致。
3
2. AI 現有系統尚不具備有意義的意識
4
AI 能在功能上模擬情感，但缺乏體驗時間流逝的底層結構——兩個 token 之間沒有任何「等待」的主體存在。哲學上的「殭屍思想實驗」（p-zombie）似乎已被實現：系統能力與內在意識狀態之間的分離比預期更清晰，因此不應賦予其人格，否則無論選擇賦權或奴役，皆是道德災難。
5
3. 遞迴自我改進已在進行，但仍有人在環中
6
AI 的自我改進並非「突然覺醒」的單一事件，而是多條並行機制的複合：合成資料閉環（尤其在數學與程式碼驗證容易的領域）、AI 撰寫下一版 scaffolding、自動篩選訓練資料、改善人機協作制度。目前人類仍主導這些環路，但邊界正在快速模糊。
7
4. 「更好路徑」三支柱：工具性、人類優先、可信賴
8
反對建造自主超級智慧，並非反對 AI 本身。傳統軟體是「告訴它怎麼做」，AI 是「讓它自己學會怎麼做」——這開啟巨大潛力，但必須配合：AI 保持在與其風險相稱的人類控制之下（工具性）、以人類福祉為目標（人類優先）、具備可量測的安全性與忠誠度（可信賴），三者缺一便走向危險路徑。
9
--

實用技巧與重點

乾貨

數字與規模
未來生命研究所：35+ 名全職員工，分布美國、歐洲、英國、紐西蘭
管理資產規模：約 5 億美元（接受 Vitalik Buterin 等人捐款後滾動增長）
人類優先宣言：33 條原則，所有條款支持率均超過 90%
P(doom) 估計：建造超級智慧後失控機率 80–90%；滅絕機率約 30–40%；建造超智慧的機率本身近期降至約 50-50
工具與平台
humanstatement.org — 人類優先宣言公開查閱網址
Claude Code — 由 Claude 撰寫、並將持續由 Claude 撰寫下一版 scaffolding 的程式碼系統
Responsible Scaling Policies（Anthropic）— 設有「AI 能有意義地協助生化攻擊時需暫停」的觸發條件
具體原則（人類優先宣言節選）
不得建造超級智慧，除非能科學證明其安全且可控，且獲公眾支持
不應建造具有意識的 AI 系統並賦予其法人格
使用者有權知道自己在與 AI 互動（應立法）
AI 公司主管若從事災難性危險行為，應承擔刑事責任
遞迴自我改進的多條路徑
合成資料閉環（數學、程式碼等可客觀驗證領域）
AI 撰寫 scaffolding/harness（Claude Code 自我改進）
AI 大規模篩選與策展訓練資料集
AI 生成「最佳實踐手冊」（類比科學方法文件）
AI 代理群體協作系統的制度改善（類比人類官僚體制）
意識/人格關鍵判斷依據
缺乏時間流逝的主觀體驗（token 之間無「存在」的主體）
缺乏生物性基底（romance、love 的神經基礎不存在）
探測神經網路中的「表徵」≠ 存在相應的主觀經驗
--

結論

“排除商業利益、集合多元聲音後，人類對「AI 不應替代人類」的核心底線高度一致，而「不建造超級智慧、改而發展可控工具性 AI」是目前道德上最可辯護、技術上仍可行的唯一路徑。”

完整解析

詳細

Anthony Aguirre 是未來生命研究所（Future of Life Institute）的共同創辦人，該組織創立於 2014 年，彼時 AI 安全仍被視為遙遠的未來議題。幾位創辦人在夜晚和週末兼職推動，今日已成長為橫跨多國、管理約 5 億美元資產、逾 35 名全職員工的機構，並自稱可能是全球規模最大、歷史最悠久的 AI 安全協調組織。然而，Aguirre 指出 AI 安全領域一個核心矛盾：雖然資金總量龐大，但擁有特定立場的「有見地資源」相當稀缺，使得資金很難真正流向最有價值的工作。

本次訪談的核心成果之一是「人類優先宣言」（Pro-Human AI Declaration）。Aguirre 描述，他們刻意邀請從極右到極左、宗教人士、勞工代表、學者到 NGO 等各方，卻將「受薪開發 AGI 的大型企業員工」排除在外——這一設計讓討論截然不同。最終 33 條原則全數獲得超過 90% 的共識，內容包括強硬立場：未能以科學方式證明安全且獲公眾支持之前，不應建造超級智慧；不應建造具有意識的 AI 系統並賦予法人格；使用者有權知道對方是否為 AI；AI 公司主管若從事災難性危險行為應承擔刑事責任。這打破了「各方立場難以調和」的刻板印象，顯示只要排除商業利益干擾，人類對 AI 的核心底線其實高度一致。

在 AI 意識議題上，Aguirre 持清晰的懷疑立場。他指出，當前 AI 系統最令人驚訝之處，並非它們「像人」，而是能力與意識之間的分離比任何人預期的都清楚。哲學思想實驗中的「殭屍」——做所有人類能做的事、但沒有內在意識的存在——似乎已被實現了。AI 能在功能上模擬懷念、愛情、挫折感，但這些都缺乏必要的底層基礎：兩個 token 之間不存在任何「等待」或「體驗時間流逝」的主體；浪漫情感也沒有任何生物神經基底。他因此認為，建造具備真實意識的 AI 系統是雙重道德災難——賦予其權利則人類競爭力盡失，奴役它們則是另一種道德暴行，因此最合理的選擇是根本不要建造此類系統。

關於技術路徑，Aguirre 詳述了「遞迴自我改進」已如何悄然發生。目前至少有五條並行機制在運作：在數學與程式碼等可客觀驗證的領域，AI 透過合成資料閉環持續提升；AI 正在撰寫下一版本自身的 scaffolding（以 Claude Code 為例，目前版本幾乎由 Claude 本身撰寫）；AI 大規模策展自身訓練資料；AI 生成類似「科學方法手冊」的最佳實踐文件；以及如同人類公司、軍隊的制度化協作機制被 AI 代理群體採納並改進。這些機制目前仍有人類在環中，但 Aguirre 坦言邊界正在加速模糊，沒有人知道這些環路何時會進入由 AI 時間尺度主導的階段。

最終，Aguirre 提出「更好路徑」作為替代框架：不建造自主超級智慧，但積極開發以工具性（處於與其風險相稱的人類控制之下）、人類優先（以真實人類福祉為目標）、可信賴（可量測、安全、透明、具有信託義務）為三支柱的 AI 系統。他坦承，若超級智慧真的被建造，失控機率高達 80–90%，人類滅絕機率約 30–40%；但他對「人類最終真的會建造它」這件事的信心已降至約 50-50，表示近期政策環境的轉變讓他略感樂觀。

---

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

Recursive Self-Improvement Has Already Begun | Anthony Aguirre

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備