KeyFrame

多代理系統實戰!揭秘生產級 AI 架構「Missions」

PP科技筆記 Podcast·5月25日週一·24 min中文

三句話摘要

Factory 工程師 Luke Alvarero 揭示 AI 軟體開發的真正瓶頸是人類注意力,並介紹其 Missions 多智能體架構如何讓 AI 團隊連續自主運作 16 天。 AI 軟體開發的競爭優勢不在模型有多聰明,而在能否設計出一套「乾淨上下文 + 事前驗證合約 + 強制交接日誌」的管理架構,讓 AI 團隊在人類睡覺時也能用比人類更嚴苛的標準自主推進並修復專案。 人類注意力才是 AI 開發的天花板。 Alvarero 指出,AI 變強並不能直接轉化為生產力,因為每個決策仍需人類審核。50 個 AI 同時等待指示,等同於把人類主管壓垮,問題不在 AI 不夠聰明,而在人類管不過來。

重點整理

重點
  • 1

    人類注意力才是 AI 開發的天花板。 Alvarero 指出,AI 變強並不能直接轉化為生產力,因為每個決策仍需人類審核。50 個 AI 同時等待指示,等同於把人類主管壓垮,問題不在 AI 不夠聰明,而在人類管不過來。

  • 2

    並行執行是陷阱,串行才是正解。 多個工作者同時修改同一程式庫,會導致互相踩踏變更、產生不一致架構決策,後期協調成本遠超速度優勢。Missions 嚴格規定任何時間點只有一個智能體在改變程式碼狀態,讀取操作才允許並行。

  • 3

    驗證合約在程式碼撰寫前就必須定義。 傳統的「寫完再測試」讓 AI 根據自己寫的錯誤邏輯生成測試,形同包庇。Missions 由協調者在任務開始前依照商業邏輯寫好嚴格斷言,驗證者在完全沒看過原始碼的狀態下執行,實現天生對立的查核機制。

  • 4

    模型指揮術打破單一模型迷思。 不同角色使用不同廠商的模型:協調者用嚴謹推理型(如 Claude Opus、OpenAI o1)、工作者用高速編程型、驗證者刻意採用不同廠商模型以避免集體盲點,同時規避供應商鎖定風險。

實用技巧與重點

乾貨
  • 具體數據:
  • 複製 Slack 企業通訊軟體,AI 連續自主運作 16 天
  • 最終程式庫中 50% 的程式碼專門用於測試
  • 整體測試覆蓋率達 90%
  • 架構控制邏輯由約 700 行 prompt 驅動
  • 新功能實作幾乎從未在第一次驗證階段通過(一次過率接近零)
  • 人類 5 人團隊透過此架構可同時管理 30–50 個工作流
  • 架構運作時耗時最長的是等待伺服器啟動與界面渲染,非等待 AI 生成
  • 工具與模型:
  • Factory 公司開源 coding agent:Goose
  • 高階規劃推薦模型:Claude OpusOpenAI o1
  • 架構名稱:Missions
  • 版本控制工具:Git(工作者透過 Git commit 提交變更)
  • 用戶測試驗證環境:無頭瀏覽器(headless browser)
  • 五種多智能體互動框架:
  • 偽派 — 主管指派跑腿任務
  • 點分離 — 獨立驗證者找茬
  • 直接溝通 — AI 互發私訊(陷阱,導致狀態碎片化)
  • 協商 — 非對立方式協調共享資源修改
  • 廣播 — 強制發布全局狀態更新
  • Missions 三角色機制:
  • 協調者:制定計畫、寫驗證合約、分派任務、根據交接日誌重新規劃
  • 工作者:接收單一任務規格、執行完畢後立即銷毀(乾淨上下文)
  • 驗證者:從未看過原始碼、執行真實用戶行為測試、寫結構化交接日誌
  • 結構化交接日誌必須包含:
  • 執行的指令
  • 退出代碼
  • 具體錯誤訊息
  • 嘗試過的修復方法

結論

結論

AI 軟體開發的競爭優勢不在模型有多聰明,而在能否設計出一套「乾淨上下文 + 事前驗證合約 + 強制交接日誌」的管理架構,讓 AI 團隊在人類睡覺時也能用比人類更嚴苛的標準自主推進並修復專案。

完整解析

詳細

現今 AI 開發工具的進步速度讓人不禁幻想,只要下幾個指令就能在睡覺時讓 AI 生出一個完整產品。但 Factory 公司核心智能體基礎設施負責人、開源 coding agent Goose 的開發者 Luke Alvarero,在一場演講中打破了這個幻覺。他指出,問題的根源不在 AI 不夠聰明,而在人類的注意力容量根本追不上 AI 的輸出速度。他用一個比喻說明:你手下突然多了 50 個永不睡覺的天才實習生,聽起來很美,但每個決策、每行關鍵程式碼都要回頭問你,你的大腦在審查幾個之後就徹底癱瘓,剩下的 49 個只能空轉。傳統「一個 AI 搞定一切」的單智能體模式,在稍微複雜的任務前就會這樣崩潰。

Alvarero 將多智能體的演進整理為五種互動框架:偽派(主管指派跑腿)、點分離(引入獨立驗證者)、直接溝通(AI 互傳私訊,但這是陷阱)、協商(共享資源的非對立交易)、廣播(強制同步全局狀態)。Factory 舍棄了最危險的直接溝通,將其餘元素整合成 Missions 架構。架構的核心是三個界線極度分明的角色:協調者負責高階規劃,完全不寫程式碼;工作者負責執行,任務完成後立即銷毀;驗證者負責找茬,且刻意設計成從未看過工作者的原始碼。工作者每次只拿到當次任務的規格,如同剛睡醒的工程師,完全沒有過去失敗的記憶包袱,透過 Git commit 提交變更後立即退場。這種物理上的隔離從根本消除了 AI 對話拉長後「忘記前面說了什麼、鬼打牆」的注意力衰退問題。

驗證環節是整套架構最具突破性的部分。傳統做法是「先寫程式再補測試」,但 AI 寫測試時會順著自己已知的(可能有誤的)邏輯去塑形,形同球員兼裁判。Missions 要求協調者在任何一行程式碼被寫出來之前,就根據人類的商業邏輯寫下嚴格的驗證合約與斷言(例如「點擊此按鈕後畫面必須出現紅色警告框,否則測試直接失敗」)。驗證者拿著合約、在對原始碼毫無感情的狀態下,甚至在無頭瀏覽器中真實點擊按鈕、填寫表單、等待頁面渲染,模擬真實用戶行為。實測數據顯示,整個架構運作時耗時最長的環節,根本不是等待 AI 生成程式碼,而是等待伺服器啟動與界面渲染。此外,Missions 強制要求所有智能體無論成敗都必須留下結構化交接日誌,詳細記錄執行的指令、錯誤訊息與嘗試過的修復方法,讓協調者可以在遇到死胡同時重新評估並分派修正任務,賦予系統自我修復能力。

在模型選用策略上,Alvarero 提出「模型指揮術」:協調者需要嚴謹推理,適合 Claude Opus 或 OpenAI o1 等思考型模型;工作者需要速度,選用高速編程專化模型;驗證者則刻意選用不同廠商的模型,因為訓練資料庫不同、找 bug 的邏輯有微妙差異,能大幅提升抓錯率,同時也避免了供應商鎖定的風險。最讓人驚豔的是抗淘汰設計:整個架構的控制邏輯不寫死在程式碼中,而是由約 700 行 prompt 驅動。當更強的新模型出現,只需接上新的 API,架構自動升級,不會被任何特定模型的時代局限所束縛。實戰中,Missions 連續自主運作 16 天,從零建構出功能完整的 Slack 複製版,最終測試覆蓋率達 90%,且幾乎每個新功能都在第一次驗證時失敗——然而這恰恰證明了系統的強韌:錯誤被即時攔截修復,而非積累到第三天讓專案全面崩潰。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕