KeyFrame

Recursive Self-Improvement Has Already Begun | Anthony Aguirre

The Roman Forum with Roman Yampolskiy·6月19日週五·94 min英文

三句話摘要

未來生命研究所共同創辦人 Anthony Aguirre 闡述 AI 安全現況、「人類優先宣言」的誕生過程,以及如何在不建造超級智慧的前提下,仍能從 AI 獲取最大效益的「更好路徑」框架。 --- 排除商業利益、集合多元聲音後,人類對「AI 不應替代人類」的核心底線高度一致,而「不建造超級智慧、改而發展可控工具性 AI」是目前道德上最可辯護、技術上仍可行的唯一路徑。 1. 人類優先宣言跨越意識形態鴻溝

重點整理

重點
  • 1

    1. 人類優先宣言跨越意識形態鴻溝

  • 2

    主辦方刻意排除受薪開發 AGI 的大型企業人員,讓極右到極左、宗教到世俗的代表同處一室,結果達成了 33 條強硬原則的高度共識,包括「未能科學證明安全前不得建造超級智慧」、「不應賦予 AI 法人格」等,說明在沒有商業利益干擾的環境下,人類對 AI 的核心立場其實高度一致。

  • 3

    2. AI 現有系統尚不具備有意義的意識

  • 4

    AI 能在功能上模擬情感,但缺乏體驗時間流逝的底層結構——兩個 token 之間沒有任何「等待」的主體存在。哲學上的「殭屍思想實驗」(p-zombie)似乎已被實現:系統能力與內在意識狀態之間的分離比預期更清晰,因此不應賦予其人格,否則無論選擇賦權或奴役,皆是道德災難。

  • 5

    3. 遞迴自我改進已在進行,但仍有人在環中

  • 6

    AI 的自我改進並非「突然覺醒」的單一事件,而是多條並行機制的複合:合成資料閉環(尤其在數學與程式碼驗證容易的領域)、AI 撰寫下一版 scaffolding、自動篩選訓練資料、改善人機協作制度。目前人類仍主導這些環路,但邊界正在快速模糊。

  • 7

    4. 「更好路徑」三支柱:工具性、人類優先、可信賴

  • 8

    反對建造自主超級智慧,並非反對 AI 本身。傳統軟體是「告訴它怎麼做」,AI 是「讓它自己學會怎麼做」——這開啟巨大潛力,但必須配合:AI 保持在與其風險相稱的人類控制之下(工具性)、以人類福祉為目標(人類優先)、具備可量測的安全性與忠誠度(可信賴),三者缺一便走向危險路徑。

  • 9

    --

實用技巧與重點

乾貨
  • 數字與規模
  • 未來生命研究所:35+ 名全職員工,分布美國、歐洲、英國、紐西蘭
  • 管理資產規模:約 5 億美元(接受 Vitalik Buterin 等人捐款後滾動增長)
  • 人類優先宣言:33 條原則,所有條款支持率均超過 90%
  • P(doom) 估計:建造超級智慧後失控機率 80–90%;滅絕機率約 30–40%;建造超智慧的機率本身近期降至約 50-50
  • 工具與平台
  • humanstatement.org — 人類優先宣言公開查閱網址
  • Claude Code — 由 Claude 撰寫、並將持續由 Claude 撰寫下一版 scaffolding 的程式碼系統
  • Responsible Scaling Policies(Anthropic)— 設有「AI 能有意義地協助生化攻擊時需暫停」的觸發條件
  • 具體原則(人類優先宣言節選)
  • 不得建造超級智慧,除非能科學證明其安全且可控,且獲公眾支持
  • 不應建造具有意識的 AI 系統並賦予其法人格
  • 使用者有權知道自己在與 AI 互動(應立法)
  • AI 公司主管若從事災難性危險行為,應承擔刑事責任
  • 遞迴自我改進的多條路徑
  • 合成資料閉環(數學、程式碼等可客觀驗證領域)
  • AI 撰寫 scaffolding/harness(Claude Code 自我改進)
  • AI 大規模篩選與策展訓練資料集
  • AI 生成「最佳實踐手冊」(類比科學方法文件)
  • AI 代理群體協作系統的制度改善(類比人類官僚體制)
  • 意識/人格關鍵判斷依據
  • 缺乏時間流逝的主觀體驗(token 之間無「存在」的主體)
  • 缺乏生物性基底(romance、love 的神經基礎不存在)
  • 探測神經網路中的「表徵」≠ 存在相應的主觀經驗
  • --

結論

結論

排除商業利益、集合多元聲音後,人類對「AI 不應替代人類」的核心底線高度一致,而「不建造超級智慧、改而發展可控工具性 AI」是目前道德上最可辯護、技術上仍可行的唯一路徑。

完整解析

詳細

Anthony Aguirre 是未來生命研究所(Future of Life Institute)的共同創辦人,該組織創立於 2014 年,彼時 AI 安全仍被視為遙遠的未來議題。幾位創辦人在夜晚和週末兼職推動,今日已成長為橫跨多國、管理約 5 億美元資產、逾 35 名全職員工的機構,並自稱可能是全球規模最大、歷史最悠久的 AI 安全協調組織。然而,Aguirre 指出 AI 安全領域一個核心矛盾:雖然資金總量龐大,但擁有特定立場的「有見地資源」相當稀缺,使得資金很難真正流向最有價值的工作。

本次訪談的核心成果之一是「人類優先宣言」(Pro-Human AI Declaration)。Aguirre 描述,他們刻意邀請從極右到極左、宗教人士、勞工代表、學者到 NGO 等各方,卻將「受薪開發 AGI 的大型企業員工」排除在外——這一設計讓討論截然不同。最終 33 條原則全數獲得超過 90% 的共識,內容包括強硬立場:未能以科學方式證明安全且獲公眾支持之前,不應建造超級智慧;不應建造具有意識的 AI 系統並賦予法人格;使用者有權知道對方是否為 AI;AI 公司主管若從事災難性危險行為應承擔刑事責任。這打破了「各方立場難以調和」的刻板印象,顯示只要排除商業利益干擾,人類對 AI 的核心底線其實高度一致。

在 AI 意識議題上,Aguirre 持清晰的懷疑立場。他指出,當前 AI 系統最令人驚訝之處,並非它們「像人」,而是能力與意識之間的分離比任何人預期的都清楚。哲學思想實驗中的「殭屍」——做所有人類能做的事、但沒有內在意識的存在——似乎已被實現了。AI 能在功能上模擬懷念、愛情、挫折感,但這些都缺乏必要的底層基礎:兩個 token 之間不存在任何「等待」或「體驗時間流逝」的主體;浪漫情感也沒有任何生物神經基底。他因此認為,建造具備真實意識的 AI 系統是雙重道德災難——賦予其權利則人類競爭力盡失,奴役它們則是另一種道德暴行,因此最合理的選擇是根本不要建造此類系統。

關於技術路徑,Aguirre 詳述了「遞迴自我改進」已如何悄然發生。目前至少有五條並行機制在運作:在數學與程式碼等可客觀驗證的領域,AI 透過合成資料閉環持續提升;AI 正在撰寫下一版本自身的 scaffolding(以 Claude Code 為例,目前版本幾乎由 Claude 本身撰寫);AI 大規模策展自身訓練資料;AI 生成類似「科學方法手冊」的最佳實踐文件;以及如同人類公司、軍隊的制度化協作機制被 AI 代理群體採納並改進。這些機制目前仍有人類在環中,但 Aguirre 坦言邊界正在加速模糊,沒有人知道這些環路何時會進入由 AI 時間尺度主導的階段。

最終,Aguirre 提出「更好路徑」作為替代框架:不建造自主超級智慧,但積極開發以工具性(處於與其風險相稱的人類控制之下)、人類優先(以真實人類福祉為目標)、可信賴(可量測、安全、透明、具有信託義務)為三支柱的 AI 系統。他坦承,若超級智慧真的被建造,失控機率高達 80–90%,人類滅絕機率約 30–40%;但他對「人類最終真的會建造它」這件事的信心已降至約 50-50,表示近期政策環境的轉變讓他略感樂觀。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕