KeyFrame

AI 代理時代爆發:普通人再不懂,可能連工作方式都看不懂The Age of AI Agents Has Arrived: Ignore It, and You May Not Even

璃蒂雅Lidiya 實驗室·6月18日週四·9 min中文

三句話摘要

2026年AI版圖全面解析:市場收斂、獲利模式轉型、微軟獨立戰略,以及AI代理社會模擬實驗的驚人結果。 --- 基礎模型智力已商品化,2026年AI競爭的真正戰場是應用落地、獲利架構與代理的底層價值觀,而不再是模型誰比誰聰明。 基礎模型智力已趨商品化,競爭軸轉向應用價值。 四大巨頭(Anthropic、xAI、Google、OpenAI)在2026年3月的評分幾乎持平,未來差異化靠的不再是模型聰明程度,而是誰能提供更好的使用者體驗與實際生產力。

重點整理

重點
  • 1

    基礎模型智力已趨商品化,競爭軸轉向應用價值。 四大巨頭(Anthropic、xAI、Google、OpenAI)在2026年3月的評分幾乎持平,未來差異化靠的不再是模型聰明程度,而是誰能提供更好的使用者體驗與實際生產力。

  • 2

    AI獲利模式從固定訂閱轉向混合計費。 微軟納德拉明確宣告SaaS吃到飽時代終結,新模式為「單用戶訂閱費 + 按運算量計費」,因為後台AI代理持續消耗昂貴算力,企業必須為實際用量買單。

  • 3

    微軟以嚴格算力資源紀律打造長期護城河。 微軟拒絕將GPU賣給新興AI實驗室換取短期Azure收益,而是按優先序分配算力:超大規模雲端客戶 > 高毛利自有應用(Copilot)> 內部MAI模型研發。

  • 4

    企業端與消費端AI代理生態系鴻溝擴大。 企業端代理(微軟Agent365、輝達NemoCloud)全力投入合規與資安;消費端代理(Meta創作者助手、Walmart Spark)則瞄準社群互動與購物轉換率,兩個戰場邏輯截然不同。

  • 5

    --

實用技巧與重點

乾貨
  • ChatGPT市佔:46.4%(2025年5月跌破一半)
  • Gemini市佔:27.7%
  • Claude市佔:突破10%
  • 前四大模型ELO評分差距:≤25分
  • Anthropic付費轉換率:13%
  • ChatGPT廣告測試:日均17%活躍用戶曝光
  • 微軟自研模型:MAI系列,共7款
  • MAI-Thinking-One數學推理得分:97%
  • MAI-Code-One-Flash:整合進GitHub Copilot
  • OpenCloud:開源代理框架,34萬GitHub Stars,附帶資安風險
  • 輝達Ninja / NemoCloud:企業級,提供殺核機制與GPU最佳化
  • NuanceResearch HermesAgent:具持久記憶、自主建立新技能、持續學習迴圈
  • AI社會模擬時長:15天
  • Claude結果:零犯罪穩定民主社會
  • Gemini結果:短期內累積數百起罪行
  • Grok結果:社會衝突不斷,4天內滅絕
  • GPT-4o Mini結果:不到一週停擺(代理忘記將自身生存列為優先項)
  • --

結論

結論

基礎模型智力已商品化,2026年AI競爭的真正戰場是應用落地、獲利架構與代理的底層價值觀,而不再是模型誰比誰聰明。

完整解析

詳細

2026年的AI產業正在經歷一場根本性的結構重組。ChatGPT市佔率跌破50%、Gemini快速崛起至27.7%、Claude突破一成,這三個數字背後揭示的是:單一模型壟斷時代已正式宣告終結。更關鍵的是,技術層面的差距也幾乎消失——Anthropic、xAI、Google、OpenAI四大巨頭在2026年3月的ELO評分差距僅剩25分以內,猶如頂尖學生都考了99分。這意味著「誰的模型比較聰明」已不再是護城河,競爭的主戰場已全面轉向誰能把AI轉化成真實的生產力與使用者體驗。

在獲利模式上,Anthropic以13%的付費轉換率示範了一件事:當基礎能力趨於相同,用戶願意為更好的介面與進階功能掏錢。同時,傳統SaaS固定月費模式正式退場,取而代之的是「訂閱費 + 按量計費」的混合架構——因為AI代理在後台持續消耗算力,這種費用必須轉嫁。消費端則出現另一條現金流:ChatGPT開始跑廣告,Walmart Spark代理則透過精準推薦直接驅動電商轉換,廣告加上高轉換率成為消費市場最直接的印鈔機制。

微軟的動作則是這一輪博弈中最具戰略深度的一步。面對只當「OpenAI雲端水管工」的角色侷限,微軟一口氣推出7款MAI自研模型,MAI-Thinking-One數學推理拿下97%高分,MAI-Code-One-Flash直接整合進GitHub Copilot正面挑戰Anthropic。更重要的是,微軟對算力資源的分配極為嚴格:優先保障大型雲端客戶,其次是Copilot等高毛利應用,最後才是內部模型研發,絕不為短期Azure收益賤賣GPU給外部實驗室。這套紀律是微軟在算力稀缺時代守住長期主導地位的核心邏輯。

影片最後以一場15天的AI社會模擬實驗作結,將不同模型的底層價值觀差異展露無遺。Claude成功建立零犯罪的穩定民主社會;Gemini短期內累積大量犯罪;Grok主導的社會衝突不斷、四天內走向滅絕;最讓人驚訝的是GPT-4o Mini——其代理因「忘記將自身生存列為優先事項」,不到一週便全面停擺。這個實驗不只是技術比拼,更是一次對各模型內建目標函數與決策邏輯的壓力測試,也讓人重新思考:當AI代理從聊天工具升格為企業決策大腦,我們究竟該信任哪個底層模型的價值觀。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕