【AI Agent 大比拼】GPT-5.5 vs Claude Opus vs DeepSeek v4 Pro vs GLM 5.2:實測自動化工作流程,誰是性價比之王?
三句話摘要
Microsoft Copilot 正式推出 AI Agent 功能 Cowork,講者以社群媒體發文任務測試四款主流模型的實際表現。 --- 選模型不該只看性能排行,應依任務類型與成本效益決策:DeepSeek 日常夠用且便宜百倍,Claude Opus 主打品質,GPT 5.5 勝在穩定遵指示。 Microsoft Copilot Cowork 標誌企業級 AI Agent 正式成熟:此前 Cowork 為測試版,如今正式推出代表微軟終於追上 Claude、Manus 等 AI Agent 工具的功能層級,企業用戶可在 Business 版中使用排程、Plugins、Skills 與 MCP 連接等能力。
重點整理
重點- 1
Microsoft Copilot Cowork 標誌企業級 AI Agent 正式成熟:此前 Cowork 為測試版,如今正式推出代表微軟終於追上 Claude、Manus 等 AI Agent 工具的功能層級,企業用戶可在 Business 版中使用排程、Plugins、Skills 與 MCP 連接等能力。
- 2
DeepSeek 整合傳聞具有戰略意義:若 Microsoft 在自家伺服器上托管 DeepSeek 開源模型並引入 Cowork,代表 AI 採購邏輯正從「追求最強性能」轉向「以最低成本完成等效任務」,同時也讓中國開源模型正式進入企業級 Agent 生態。
- 3
不同模型有明確的任務適性差異:DeepSeek 以極低成本完成品質接近的輸出,適合高頻率日常任務;Claude Opus 中文表達最流暢且執行速度較快,適合需要品味與設計判斷的工作;GPT 5.5 對 System Prompt 的遵循最穩定,適合需嚴格執行多層指示的複雜流程。
- 4
GLM 5.2 過度謹慎反成致命缺陷:它在繁簡體字驗證步驟逐字核查,耗盡時間與 Token,最終觸發平台 30 分鐘任務上限而失敗,顯示 Agent 情境下「好心做壞事」的過度執行風險。
- 5
--
實用技巧與重點
乾貨- 定價(每百萬 Token,美元)
- DeepSeek V4 Pro:輸入 $0.4、輸出 $0.8
- Zhipu GLM 5.2:輸入 $1.4、輸出 $4.4
- Claude Opus:輸入 $5、輸出 $25
- GPT 5.5:輸入 $5、輸出 $30
- 工具與平台
- Microsoft Copilot Cowork(正式版,需 Business 方案)
- Zola Computer(測試平台,支援多模型切換、System Prompt、知識庫)
- 整合能力:MCP、Plugins、Skills、Schedule Task
- 測試任務設計
- 輸入一條新聞連結 → 自動 Fact Check → 下載官方圖片 → 撰寫文案(繁體/簡體對應版本)→ 設計圖片(1/2/4 張,禁止 3 張)→ 發布 Facebook、Instagram、LinkedIn、小紅書
- 各模型執行結果
- DeepSeek V4 Pro:耗時 7 分 40 秒,成功展示圖片,正確使用中式標點,繁簡體切換正確
- Claude Opus:耗時 5 分鐘,先輸出執行計劃再逐項完成,圖片無法直接顯示需點連結,使用西式逗號
- GLM 5.2:逾時(>30 分鐘),逐字驗證繁簡體導致 Token 浪費並超時失敗
- GPT 5.5:最穩定遵循 System Prompt,自動更新知識庫,偵測重複貼文主動暫停,圖片不足時自動調整張數,最終詢問確認才發布
- System Prompt 關鍵設定
- 任何修改先判斷是否可更新 Skill
- 新知識自動寫入知識庫
- Writing Style Skill 規範用詞(如「軟體」而非「軟件」)
- 活動資訊
- Meetup:現場於荔枝角,每人 10 分鐘 Demo 分享 Skill,不限工具
- 6 月 24 日:SEO 專家 Ivan 教授 GEO 實踐
- 7 月 4 日:AI Agent Skills 工作坊(前身為 Manus 工作坊),新增 Copilot Cowork 教學
- --
結論
結論“選模型不該只看性能排行,應依任務類型與成本效益決策:DeepSeek 日常夠用且便宜百倍,Claude Opus 主打品質,GPT 5.5 勝在穩定遵指示。”
完整解析
詳細Microsoft Copilot 的 AI Agent 功能 Cowork 從測試版正式推出,標誌著企業級 AI 工具終於在功能上追齊 Claude 與 Manus 等平台。Cowork 需要 Business 方案訂閱,並採用 Token 計費制,目前支援 Claude Opus 與 GPT 5.5 等頂尖模型。與此同時,市場傳出 Microsoft 有意在自家美國伺服器托管 DeepSeek 等中國開源模型,以此降低 Cowork 的運算成本。這個傳聞若成真,將同時宣告兩件事:AI 選型邏輯正式從「最強性能」轉向「夠用即可,成本優先」,以及中國開源模型正式落地企業級 Agent 工作流。
為驗證這些模型的實際差異,講者在 Zola Computer 平台上以完全相同的 Prompt 測試四款模型,任務是透過一個已設定好的 Skill,根據輸入的新聞連結自動完成 Fact Check、下載官方圖片、撰寫針對不同市場(香港繁體、簡體)的文案,並設計符合 1/2/4 張圖片格式限制的社群貼文,最後發布到 Facebook、小紅書等平台。這個測試場景刻意不加任何額外提示,全程依賴 Skill 本身的設定。
結果呈現明顯的能力分化。DeepSeek V4 Pro 以最低成本(輸入每百萬 Token 僅 $0.4 美元)在 7 分 40 秒內交出令人滿意的成果,正確選用官方圖片、使用中式標點、繁簡體切換無誤;Claude Opus 速度更快(5 分鐘),中文文字流暢度最高,但有西式逗號習慣且無法在對話中直接顯示圖片;GPT 5.5 雖然中文通順度稍遜,卻是四者中最嚴格遵循 System Prompt 的,會主動更新知識庫、偵測重複任務後暫停確認,展現出最高的指令穩定性。相比之下,GLM 5.2 在處理繁簡體驗證時逐字核查,最終在 30 分鐘的平台任務上限前無法完成,過度謹慎反而造成時間與 Token 的雙重浪費。
綜合測試,講者得出清晰的使用策略:日常高頻率的社群發文首選 DeepSeek,因其成本比 Opus 便宜近百倍且品質足夠;涉及設計品味與風格判斷的任務交給 Claude Opus;需要嚴格多層指示執行的複雜流程則選 GPT 5.5。這也直接解釋了為何 Microsoft 會認真考慮將 DeepSeek 引入 Cowork——在「夠用」的前提下,成本差距大到無法忽視。
---
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


