KeyFrame

The Production AI Playbook: Deploying Agents at Enterprise Scale — Sandipan Bhaumik, Databricks

AI Engineer·6月18日週四·37 min英文

三句話摘要

從 Demo 到生產級 AI 的五柱框架:Sandy(Databricks 技術主管)分享如何用評估、可觀測性、資料基礎、協作編排與治理五個支柱,系統性地將 AI Agent 部署到企業生產環境。 --- AI 上生產的關鍵不是模型選擇,而是先建立評估、可觀測性與資料基礎——讓 AI 系統可量測、可追蹤、可問責,Demo 才能真正變成產品。 1. 大多數 AI 專案在生產環境失敗的原因是「先選模型」

重點整理

重點
  • 1

    1. 大多數 AI 專案在生產環境失敗的原因是「先選模型」

  • 2

    企業通常從「用 GPT 還是 Claude?」開始討論,在受控環境下跑出漂亮 Demo,但上線後因缺乏可觀測性、評估機制與責任歸屬,無法理解 AI 為何答錯,最終既無 ROI 又損失時間與金錢。

  • 3

    2. 評估(Evaluation)是整個 AI 系統的規格書

  • 4

    評估不是談「accuracy」,而是用數字定義業務成功條件,收集領域專家的真實案例建立黃金資料集,並建立自動化管道持續與生產回應比對;這個資料集是活的系統,隨時間增長讓整體品質持續提升。

  • 5

    3. 可觀測性(Observability)在受監管行業是法規要求,不是選項

  • 6

    透過追蹤每一個 Agent 決策步驟(意圖分類、API 呼叫、政策文件檢索、推理、護欄檢查),才能在客戶投訴時回溯 AI 行為、偵測重複 API 呼叫等隱性問題,並在生產環境中設定線上監控與回退策略。

  • 7

    4. 多 Agent 協作模式的選擇直接影響延遲與可維護性

  • 8

    Orchestrator-Worker 模式提供中央控制,易於除錯;Choreography 模式讓 Agent 透過訊息匯流排平行運作,降低延遲;Human-in-the-Loop 在信心分數低於門檻時引入人工審核。三種模式應依業務場景選擇,並需同步處理狀態管理與故障容錯問題。

  • 9

    --

實用技巧與重點

乾貨
  • 具體數字與效益
  • 零售銀行案例:每月 ~20,000 通客服查詢,60% 為可自動化的簡單問題
  • 初次 POC 失敗耗資 $85,000 USD,歷時 6 個月
  • 成功重做目標:AI Agent 處理 60% 簡單查詢,準確率 85%
  • 測試階段 Governance 層攔截 47 起 PII 洩漏事件
  • 模型選擇延至 8 週 POC 的第 7 週才進行
  • 工具與平台
  • Databricks(Agent Bricks、MLflow、Unity Catalog、Delta Lake、Mosaic AI、Genie text-to-SQL)
  • Apache Spark、Delta Lake、MLflow(開源底層)
  • 支援三大雲:AWS、Azure、Google Cloud
  • LLM as Judge(第二層語意評估)
  • OpenTelemetry(開源 Tracing 方案,QR Code 提供設定指南)
  • ITSM 系統整合(生產告警)
  • 向量資料庫(RAG 政策文件檢索)
  • 三層評估架構
  • 確定性層(Deterministic):格式檢查、Regex、NER、PII 偵測、意圖分類
  • 語意層(Non-deterministic):LLM as Judge 評估接地性(Groundedness)、安全性、相關性
  • 行為層(Behavioral):工具呼叫正確性、重複 API 呼叫偵測、Agent 迴圈偵測
  • 三種多 Agent 協作模式
  • Orchestrator-Worker:中央控制,易除錯
  • Choreography:事件匯流排,平行執行,降低延遲
  • Human-in-the-Loop:信心分數低於門檻時觸發人工介入
  • 生產事故處理 Playbook 步驟
  • 偵測(評估儀表板)→ 診斷(追蹤記錄)→ 隔離(Prompt 版本回退 / 偏轉至人工)→ 修復(更新測試案例)→ 回歸測試(Eval Suite)→ 整合 ITSM 告警
  • 成本控制技巧
  • CI 管道中只對 Eval 資料集的小型子集運行測試;只有合併至主分支時才執行全量測試
  • --

結論

結論

AI 上生產的關鍵不是模型選擇,而是先建立評估、可觀測性與資料基礎——讓 AI 系統可量測、可追蹤、可問責,Demo 才能真正變成產品。

完整解析

詳細

Sandy 在 Databricks 擔任資料與 AI 技術主管,此前在 AWS 擔任首席架構師五年。他在演講開頭描述了一個反覆出現的失敗模式:企業在高層壓力下急於展示 AI 成果,第一個動作永遠是「我們該用哪個模型?」,在受控環境下快速打造出一個精緻的 Demo,領導層鼓掌,系統上線——然後幾週後開始崩潰,沒人知道 AI 為何答非所問,既無 ROI 也無法追責。他從這些失敗案例中歸納出三個根本缺口:可觀測性缺口(無法追蹤 AI 決策)、評估缺口(沒有定義可量化的成功標準)、治理缺口(出事時無人負責)。

為此,Sandy 提出一個五柱框架,並強調這五個支柱應在動任何程式碼之前先想清楚。第一柱是評估:不是談泛泛的「準確率」,而是用業務語言定義數字目標,收集領域專家的真實問答案例建立黃金資料集,再打造自動化評估管道持續比對 AI 回應。評估分三層——確定性層處理格式、PII 等規則問題;語意層使用 LLM as Judge 評估接地性與安全性;行為層則檢查 Agent 是否重複呼叫 API、是否陷入迴圈等隱性問題,這第三層常被團隊忽略,但在規模化後成本代價極大。第二柱是可觀測性:以零售銀行 Agent 為例,從意圖分類、資料庫查詢、政策文件檢索、推理到最終護欄檢查,每一步都需要被追蹤記錄,否則無法應對客戶投訴,更無法滿足歐洲監管機構的合規要求。

第三柱是資料基礎,Sandy 認為這是最被低估的支柱,他本人在典型專案中花費 60% 的時間在此。問題在於資料向來是為人類設計的——人類看到錯誤資料會去問人,但 Agent 會自信地給出錯誤答案。資料基礎分兩類:供 AI 回答問題的「問題資料」(預訓練資料、RAG 向量庫、API 連接)與用於監控的「追蹤資料」,後者需要一套完整的 Schema 設計策略,以便同時服務於監管稽核、線上監控與 LLM Judge 評估。第四柱是多 Agent 編排,介紹了 Orchestrator-Worker、Choreography 與 Human-in-the-Loop 三種模式,強調選型需考慮狀態管理與故障容錯。第五柱是治理,包含稽核軌跡、PII 預先驗證、Prompt 版本控制(必須走正式變更管理流程)、以及模型變更管理——模型供應商的 Benchmark 不代表適合企業自己的資料,必須在自有評估資料集上重新驗證。

演講最後以一個零售銀行真實案例作結。該銀行曾花 $85K、六個月打造失敗的 POC,Sandy 的團隊重新介入後,前兩週先建評估框架(200 筆真實客服案例、自動化比對管道),第三至六週完善資料基礎與追蹤系統,直到第七週才選定模型——因為有了評估資料集,模型比較迅速完成。系統上線六週後,一次銀行利率政策更新導致 CSAT 下滑,正因為監控系統到位,團隊迅速追蹤到 Agent 引用了向量資料庫中的舊版政策文件,更新嵌入後問題解決。這個案例完整示範了五柱框架讓 AI 系統「可見、可量測、可問責」的核心價值。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕