KeyFrame

AI 時代非技術人最該學的設計能力:把 Human SOP 變成 Agentic Workflow

Gary Chen·5月31日週日·21 min中文

三句話摘要

如何將人類 SOP 透過四步驟轉化為可穩定執行的 Agentic Workflow,以任務拆解取代單一 Mega Agent。 --- 把大任務拆成有明確 input/output 的小 agent 並透過 JSON artifact 串成 pipeline,配合實跑迭代補齊默會知識,是讓 agentic workflow 真正能上 production 的核心能力。 1. Mega Agent 是反模式,分而治之才能上 production

重點整理

重點
  • 1

    1. Mega Agent 是反模式,分而治之才能上 production

  • 2

    把大任務整包丟給單一 agent,中間推理過程不可見,出錯找不到下手點;拆成有明確 input/output 的小 agent,出錯時直接定位到那一段 SOP 修復,不影響其他節點。

  • 3

    2. Human SOP 有「默會知識」缺口,直接給 agent 會踩坑

  • 4

    人類讀 SOP 時大腦會自動補上經驗判斷(白色衣物分開洗、毛衣不能烘),但 agent 不會;必須把這些隱性規則顯式化,並透過實際執行迭代才能補齊。

  • 5

    3. 格式標準化三要素讓 SOP 變成可重用的 agent 規格書

  • 6

    參數化(mode、temperature)讓 SOP 成為 template 而非寫死的腳本;MUST/SHOULD/MAY(RFC 2119)明確每條規則的強制程度;Markdown 結構化分區讓 agent 和 MCP 接口都能直接讀取。

  • 7

    4. 雙向開發比追求完美 SOP 更重要

  • 8

    一位客戶花兩個月寫「完美 SOP」,實跑一次就垮;改用 scrum 精神,兩天出粗糙版、一週跑 50 次 iteration,兩週上線。速度的關鍵是迭代頻率,不是第一版的完整度。

  • 9

    --

實用技巧與重點

乾貨
  • 數字與比例
  • 5,000 元以上財務請求 → 觸發 human-in-the-loop checkpoint
  • 含棉量超過 80% 衣物 → 禁止高溫烘乾(SOP 範例規則)
  • 客戶案例:2 個月 vs 2 週上線(迭代速度的對比)
  • 目標:先有省 30% 時間的版本,再慢慢迭代
  • Skill 覆蓋穩定後,剩餘約 5% edge case 用 human-in-the-loop 處理
  • 工具與平台
  • MCP(Model Context Protocol):開放協定,Anthropic 於 2025 年初捐給 Linux Foundation 旗下 Agentic AI Foundation
  • 已支援 MCP:ChatGPT、Claude、Cursor、各主流 IDE 與 agent 平台
  • 採用 agentic workflow 的企業:IBM、AWS、ServiceNow(IT ticket、HR 請求、內部服務流程)
  • Skill 資料夾結構:SKILL.md(核心 SOP)、references(範例/術語表/踩坑紀錄)、scripts(確定性腳本)
  • Artifact 格式:JSON(上一個 agent output → 下一個 agent input)
  • 四步方法論
  • 格式標準化:參數化、MUST/SHOULD/MAY、Markdown 結構化
  • 任務拆解與連結:分解成 pipeline steps,每步獨立 input/output,靠 artifact 串接
  • 雙向開發:實跑 → 發現默會知識缺口 → 補 SOP → 再跑,持續迭代
  • 整合與執行環境:接真實工具(API、資料庫、內部系統)+ 設計 human-in-the-loop checkpoint
  • 真實案例:內部請求分類系統(200 人公司)
  • Skill 1:`internal-request-triage`,input = ticket 文字,output = JSON(category、priority、assignee、是否需澄清)
  • Skill 2:`internal-request-reply-drafting`,input = Skill 1 的 JSON,output = 回覆草稿
  • 追蹤系統整合:Notion / Jira / Google Sheet
  • Checkpoint 觸發條件:財務 > 5,000 元 或涉及 admin 權限變更
  • Skill 命名慣例範例
  • `weekly-report-drafting`
  • `pdf-processing`
  • `invoice-categorization`
  • Tacit Knowledge(默會知識)
  • 概念來源:難以用文字明確表達、存於個人腦中的知識;SOP 自動化的核心難點
  • --

結論

結論

把大任務拆成有明確 input/output 的小 agent 並透過 JSON artifact 串成 pipeline,配合實跑迭代補齊默會知識,是讓 agentic workflow 真正能上 production 的核心能力。

完整解析

詳細

現代前沿模型的能力已足夠強大,但許多使用者仍感到 AI 產出不穩定。講者根據諮詢經驗指出,問題的根源不在模型,而在於使用者不知道如何把大任務拆解成 agent 真正能執行的小單元。為了建立共同語言,影片首先釐清三個常被混淆的概念:Human SOP 是傳統寫給人看的流程文件,依賴讀者的大腦自動補入判斷與例外處理;Skill 是把流程、方法論與踩坑經驗打包成資料夾交給 agent 的執行單位,對應單一任務;Agentic Workflow 則是由多個 agent、工具、skill 與資料源串接而成的完整生產線,跑完即任務完成。三者層級截然不同,搞混就會在設計時走錯方向。

講者以「請幫手打掃」和「叫 mega agent 優化整個開發流程」為例,說明模糊指令的共同問題:雙方對「乾淨」或「優化」的定義可能完全不同,結果要嘛表面完成、要嘛動到不該動的地方,而且過程不可見、出錯無從追溯。這就是 mega agent 的致命缺陷——整包丟進去、整包吐出來,中間的推理鏈黑箱化,既不可觀測也不可修復,根本無法 production-ready。反之,若將客服 ticket 處理拆成「分類 agent」、「查歷史紀錄 agent」、「寫回覆草稿 agent」、「QC agent」四個節點,每個節點只做一件明確的事,出錯時直接定位到那一個節點的 SOP 修復,不影響其他流程。分而治之的老觀念在 agent 時代反而更關鍵,因為企業要的是穩定性、可觀測性與可修復性。

具體轉化方法論分四步。第一步是格式標準化:將 Human SOP 改寫成 agent 讀得懂的版本,透過參數化(如 mode、temperature 三選一)讓 SOP 成為可重複使用的 template,用 RFC 2119 的 MUST/SHOULD/MAY 強制釐清每條規則的強制程度,並以 Markdown 分區讓文件同時對人與 MCP 接口友善。第二步是任務拆解與連結:將流程分解成 pipeline 的獨立節點,每個節點有自己的 input 與 output,節點之間靠 JSON artifact 傳遞,上一個 agent 的輸出即下一個 agent 的輸入,不依賴黑盒魔法,而是清晰的資料契約。第三步是雙向開發:講者強調,任何人的第一版 SOP 都必然有缺口,因為人類腦中存在大量「默會知識」(Tacit Knowledge)——那些從未被明文記錄、卻在實際執行時默默發揮作用的判斷標準。這些知識只有在 agent 真的出錯之後才會浮現,因此正確做法是實跑、觀察錯誤、補 SOP、再跑,持續迭代。一位客戶花兩個月寫「完美 SOP」,實跑一次就垮;改用兩天出粗糙版、一週跑五十次 iteration 的節奏,兩週內上線。第四步是整合與執行環境:再漂亮的 SOP 若沒接到真實工具就只是文件;MCP(Model Context Protocol)提供統一的開放接口,讓任何支援它的 agent host 都能用同一套方式調用外部工具,如同 AI 世界的 USB-C;最後在高風險決策點設計 human-in-the-loop checkpoint,讓 agent 在涉及大額財務或權限變更前必須停下來等人確認,確保整條流程有人掌舵而非失控的黑箱。

講者以一間兩百人公司的內部請求分類系統作為完整示範:Skill 1 負責 triage(分類、判斷 priority、推薦 assignee),Skill 2 負責根據 triage 結果產生回覆草稿,兩者靠 JSON artifact 串接,結果寫回 Notion 或 Google Sheet,財務超過五千元或涉及 admin 權限的請求則觸發人工確認。MCP 目前已被 ChatGPT、Claude、Cursor 等主流平台採用,並由 Anthropic 捐給 Linux Foundation 旗下的 Agentic AI Foundation 長期維護,IBM、AWS、ServiceNow 等大企業也已在內部流程中大量跑起 agentic workflow。講者最後建議從自己手上最無聊、最重複的那份 SOP 開始,照著四步走一遍,先做出省 30% 時間的版本再慢慢迭代——學的不是怎麼用 AI,而是怎麼設計給 AI 用的工作流,後者的價值只會越來越高。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕