KeyFrame
AI 技術編輯精選

【AI Agent 大比拼】GPT-5.5 vs Claude Opus vs DeepSeek v4 Pro vs GLM 5.2:實測自動化工作流程,誰是性價比之王?

阿石OMP·6月19日週五·15 min中文

三句話摘要

Microsoft Copilot 正式推出 AI Agent 功能 Cowork,講者以社群媒體發文任務測試四款主流模型的實際表現。 --- 選模型不該只看性能排行,應依任務類型與成本效益決策:DeepSeek 日常夠用且便宜百倍,Claude Opus 主打品質,GPT 5.5 勝在穩定遵指示。 Microsoft Copilot Cowork 標誌企業級 AI Agent 正式成熟:此前 Cowork 為測試版,如今正式推出代表微軟終於追上 Claude、Manus 等 AI Agent 工具的功能層級,企業用戶可在 Business 版中使用排程、Plugins、Skills 與 MCP 連接等能力。

重點整理

重點
  • 1

    Microsoft Copilot Cowork 標誌企業級 AI Agent 正式成熟:此前 Cowork 為測試版,如今正式推出代表微軟終於追上 Claude、Manus 等 AI Agent 工具的功能層級,企業用戶可在 Business 版中使用排程、Plugins、Skills 與 MCP 連接等能力。

  • 2

    DeepSeek 整合傳聞具有戰略意義:若 Microsoft 在自家伺服器上托管 DeepSeek 開源模型並引入 Cowork,代表 AI 採購邏輯正從「追求最強性能」轉向「以最低成本完成等效任務」,同時也讓中國開源模型正式進入企業級 Agent 生態。

  • 3

    不同模型有明確的任務適性差異:DeepSeek 以極低成本完成品質接近的輸出,適合高頻率日常任務;Claude Opus 中文表達最流暢且執行速度較快,適合需要品味與設計判斷的工作;GPT 5.5 對 System Prompt 的遵循最穩定,適合需嚴格執行多層指示的複雜流程。

  • 4

    GLM 5.2 過度謹慎反成致命缺陷:它在繁簡體字驗證步驟逐字核查,耗盡時間與 Token,最終觸發平台 30 分鐘任務上限而失敗,顯示 Agent 情境下「好心做壞事」的過度執行風險。

  • 5

    --

實用技巧與重點

乾貨
  • 定價(每百萬 Token,美元)
  • DeepSeek V4 Pro:輸入 $0.4、輸出 $0.8
  • Zhipu GLM 5.2:輸入 $1.4、輸出 $4.4
  • Claude Opus:輸入 $5、輸出 $25
  • GPT 5.5:輸入 $5、輸出 $30
  • 工具與平台
  • Microsoft Copilot Cowork(正式版,需 Business 方案)
  • Zola Computer(測試平台,支援多模型切換、System Prompt、知識庫)
  • 整合能力:MCP、Plugins、Skills、Schedule Task
  • 測試任務設計
  • 輸入一條新聞連結 → 自動 Fact Check → 下載官方圖片 → 撰寫文案(繁體/簡體對應版本)→ 設計圖片(1/2/4 張,禁止 3 張)→ 發布 Facebook、Instagram、LinkedIn、小紅書
  • 各模型執行結果
  • DeepSeek V4 Pro:耗時 7 分 40 秒,成功展示圖片,正確使用中式標點,繁簡體切換正確
  • Claude Opus:耗時 5 分鐘,先輸出執行計劃再逐項完成,圖片無法直接顯示需點連結,使用西式逗號
  • GLM 5.2:逾時(>30 分鐘),逐字驗證繁簡體導致 Token 浪費並超時失敗
  • GPT 5.5:最穩定遵循 System Prompt,自動更新知識庫,偵測重複貼文主動暫停,圖片不足時自動調整張數,最終詢問確認才發布
  • System Prompt 關鍵設定
  • 任何修改先判斷是否可更新 Skill
  • 新知識自動寫入知識庫
  • Writing Style Skill 規範用詞(如「軟體」而非「軟件」)
  • 活動資訊
  • Meetup:現場於荔枝角,每人 10 分鐘 Demo 分享 Skill,不限工具
  • 6 月 24 日:SEO 專家 Ivan 教授 GEO 實踐
  • 7 月 4 日:AI Agent Skills 工作坊(前身為 Manus 工作坊),新增 Copilot Cowork 教學
  • --

結論

結論

選模型不該只看性能排行,應依任務類型與成本效益決策:DeepSeek 日常夠用且便宜百倍,Claude Opus 主打品質,GPT 5.5 勝在穩定遵指示。

完整解析

詳細

Microsoft Copilot 的 AI Agent 功能 Cowork 從測試版正式推出,標誌著企業級 AI 工具終於在功能上追齊 Claude 與 Manus 等平台。Cowork 需要 Business 方案訂閱,並採用 Token 計費制,目前支援 Claude Opus 與 GPT 5.5 等頂尖模型。與此同時,市場傳出 Microsoft 有意在自家美國伺服器托管 DeepSeek 等中國開源模型,以此降低 Cowork 的運算成本。這個傳聞若成真,將同時宣告兩件事:AI 選型邏輯正式從「最強性能」轉向「夠用即可,成本優先」,以及中國開源模型正式落地企業級 Agent 工作流。

為驗證這些模型的實際差異,講者在 Zola Computer 平台上以完全相同的 Prompt 測試四款模型,任務是透過一個已設定好的 Skill,根據輸入的新聞連結自動完成 Fact Check、下載官方圖片、撰寫針對不同市場(香港繁體、簡體)的文案,並設計符合 1/2/4 張圖片格式限制的社群貼文,最後發布到 Facebook、小紅書等平台。這個測試場景刻意不加任何額外提示,全程依賴 Skill 本身的設定。

結果呈現明顯的能力分化。DeepSeek V4 Pro 以最低成本(輸入每百萬 Token 僅 $0.4 美元)在 7 分 40 秒內交出令人滿意的成果,正確選用官方圖片、使用中式標點、繁簡體切換無誤;Claude Opus 速度更快(5 分鐘),中文文字流暢度最高,但有西式逗號習慣且無法在對話中直接顯示圖片;GPT 5.5 雖然中文通順度稍遜,卻是四者中最嚴格遵循 System Prompt 的,會主動更新知識庫、偵測重複任務後暫停確認,展現出最高的指令穩定性。相比之下,GLM 5.2 在處理繁簡體驗證時逐字核查,最終在 30 分鐘的平台任務上限前無法完成,過度謹慎反而造成時間與 Token 的雙重浪費。

綜合測試,講者得出清晰的使用策略:日常高頻率的社群發文首選 DeepSeek,因其成本比 Opus 便宜近百倍且品質足夠;涉及設計品味與風格判斷的任務交給 Claude Opus;需要嚴格多層指示執行的複雜流程則選 GPT 5.5。這也直接解釋了為何 Microsoft 會認真考慮將 DeepSeek 引入 Cowork——在「夠用」的前提下,成本差距大到無法忽視。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕