KeyFrame

15分鐘學會AI Agent|完整講解

李厂长来了·6月6日週六·14 min中文

三句話摘要

用三級台階概念拆解吳恩達 AI Agent 完整課程,說明何為 Agent、如何搭建,以及最常被忽略的評估環節。 AI Agent 的核心不在技術複雜度,而在於讓 AI 從「執行者」升格為「決策者」,並透過持續評估來驗證與改進——搭完不測試,等於只做了一半。 LLM → 工作流 → Agent 是三個層次,不是同一件事。 大語言模型只能被動回答問題;工作流加入固定步驟但決策仍由人控制;Agent 則讓 AI 自己拆解目標、選擇工具、反覆迭代,做決定的主體完全轉移給 AI。

重點整理

重點
  • 1

    LLM → 工作流 → Agent 是三個層次,不是同一件事。 大語言模型只能被動回答問題;工作流加入固定步驟但決策仍由人控制;Agent 則讓 AI 自己拆解目標、選擇工具、反覆迭代,做決定的主體完全轉移給 AI。

  • 2

    搭建 Agent 的核心是三塊積木的組合。 模型負責推理,工具負責連接外部系統(如查訂單、發訊息),評估則用來衡量輸出品質好壞,少了任何一塊,Agent 都是不完整的。

  • 3

    四種設計模式對應不同場景的複雜度。 反思與工具使用模式穩定可預測,適合日常任務;規劃與多智能體模式靈活自主,適合拆解複雜、多環節的大型任務。

  • 4

    評估是搭建 Agent 的另外一半,不是可選項。 不做評估就不知道 Agent 在哪種情境下會出錯,也無從針對性改進提示詞或流程;吳恩達明確指出,這是絕大多數人完成搭建後就直接跳過的致命盲點。

實用技巧與重點

乾貨
  • 課程來源:吳恩達 Deep Learning AI,共 5 模組、8 小時,完全免費
  • 三級台階:LLM → AI Workflow → AI Agent
  • 三塊積木:Model(模型)、Tool(工具)、Evaluation(評估)
  • 四種設計模式:
  • Reflection(反思模式):AI 自我審查、反覆修改輸出
  • Tool Use(工具使用模式):接入外部工具擴充執行能力
  • Planning(規劃模式):AI 自行制定執行路徑,靈活但難以預判
  • Multi-agent(多智能體模式):拆成多個子 Agent 分工協作
  • RAG(檢索增強生成)本質上是一種 AI 工作流,非 Agent
  • MCP(Model Context Protocol,模型上下文協議):統一標準,讓 Agent 更方便連接各種外部工具,不需每個工具單獨寫程式碼
  • ReAct = Reasoning + Action,所有 Agent 必備的兩種能力
  • 評估建議:用 10–20 個不同類型的測試案例,重點找 Agent 表現比人差的地方
  • 無程式碼工具推薦:make.com、n8n、Claude Skills
  • 行動清單共 5 步:釐清現在的階段 → 選重複任務搭工作流 → 讓 AI 開始做決定升級為 Agent → 做評估測試 → 不斷迭代

結論

結論

AI Agent 的核心不在技術複雜度,而在於讓 AI 從「執行者」升格為「決策者」,並透過持續評估來驗證與改進——搭完不測試,等於只做了一半。

完整解析

詳細

這支影片的出發點很實際:吳恩達在 Deep Learning AI 發布了一套完整的 AI Agent 課程,共五個模組、總時長八小時,但大多數人沒有時間從頭看完。作者花了兩整天研讀課程,再把核心概念壓縮成一支可以讓非技術背景的人也能看懂的影片。影片聚焦三件事:AI Agent 到底是什麼、怎麼搭建、以及那個幾乎所有人都跳過的評估環節。

作者用「三級台階」的方式建立認知框架。第一級是大家熟悉的大語言模型(LLM),ChatGPT、Claude、Gemini 都屬於這一層,特點是被動、只回答你問的問題,無法主動查看外部資訊。第二級是 AI 工作流,解決了 LLM 無法查詢外部資料的問題,例如讓 AI 在回答前先去查日曆或待辦清單,但流程是你事先設定好的,做決定的人仍是你。第三級才是真正的 AI Agent,關鍵的躍升在於:做決定的主體從人轉移給 AI。Agent 能自己拆解目標、自己決定用什麼工具、自己評估結果夠不夠好、再自己決定是否繼續修改,整個過程不需要人介入。作者順帶澄清了兩個常見術語:RAG(檢索增強生成)本質上就是工作流;ReAct(Reasoning + Action)則是所有 Agent 必備的核心能力——先推理再行動。

搭建 Agent 的骨架由三塊積木構成。第一塊是模型,負責思考與推理。第二塊是工具,負責連接外部系統;以自動回覆客服訊息的 Agent 為例,它需要一個連接訂單後台的查詢工具,以及一個能真正發送訊息的工具,光靠模型本身是無法完成這些動作的。MCP(模型上下文協議)在此扮演統一標準的角色,讓 Agent 更方便串接各種工具而不需要逐一寫程式。第三塊是評估,是最容易被忽略的積木,但吳恩達直接說「評估是搭建 AI Agent 的另外一半」。若你做了一個自動整理會議記錄的 Agent,在沒有評估的情況下你根本不會發現它偶爾會把「已完成事項」和「待辦事項」搞混,錯誤的記錄就這樣默默發出去了。

四種設計模式則決定你怎麼把積木組合起來。反思模式最簡單,讓 AI 做完後再自我審查一遍,效果往往顯著提升;工具使用模式是接入外部能力的標準做法;規劃模式讓 Agent 自行制定執行路徑,適合沒有固定流程的任務,但可預測性較低;多智能體模式是最高階的一種,把大任務拆給多個專業子 Agent 分工,例如選題 Agent、寫稿 Agent、SEO Agent 各司其職,最後整合結果。前兩種模式穩定可控,後兩種則靈活但複雜,選擇時對應自己的需求即可。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕