The Production AI Playbook: Deploying Agents at Enterprise Scale — Sandipan Bhaumik, Databricks

AI Engineer·6月18日週四·37 min英文

三句話摘要

從 Demo 到生產級 AI 的五柱框架：Sandy（Databricks 技術主管）分享如何用評估、可觀測性、資料基礎、協作編排與治理五個支柱，系統性地將 AI Agent 部署到企業生產環境。 --- AI 上生產的關鍵不是模型選擇，而是先建立評估、可觀測性與資料基礎——讓 AI 系統可量測、可追蹤、可問責，Demo 才能真正變成產品。 1. 大多數 AI 專案在生產環境失敗的原因是「先選模型」

重點整理

重點

1
1. 大多數 AI 專案在生產環境失敗的原因是「先選模型」
2
企業通常從「用 GPT 還是 Claude？」開始討論，在受控環境下跑出漂亮 Demo，但上線後因缺乏可觀測性、評估機制與責任歸屬，無法理解 AI 為何答錯，最終既無 ROI 又損失時間與金錢。
3
2. 評估（Evaluation）是整個 AI 系統的規格書
4
評估不是談「accuracy」，而是用數字定義業務成功條件，收集領域專家的真實案例建立黃金資料集，並建立自動化管道持續與生產回應比對；這個資料集是活的系統，隨時間增長讓整體品質持續提升。
5
3. 可觀測性（Observability）在受監管行業是法規要求，不是選項
6
透過追蹤每一個 Agent 決策步驟（意圖分類、API 呼叫、政策文件檢索、推理、護欄檢查），才能在客戶投訴時回溯 AI 行為、偵測重複 API 呼叫等隱性問題，並在生產環境中設定線上監控與回退策略。
7
4. 多 Agent 協作模式的選擇直接影響延遲與可維護性
8
Orchestrator-Worker 模式提供中央控制，易於除錯；Choreography 模式讓 Agent 透過訊息匯流排平行運作，降低延遲；Human-in-the-Loop 在信心分數低於門檻時引入人工審核。三種模式應依業務場景選擇，並需同步處理狀態管理與故障容錯問題。
9
--

實用技巧與重點

乾貨

具體數字與效益
零售銀行案例：每月 ~20,000 通客服查詢，60% 為可自動化的簡單問題
初次 POC 失敗耗資 $85,000 USD，歷時 6 個月
成功重做目標：AI Agent 處理 60% 簡單查詢，準確率 85%
測試階段 Governance 層攔截 47 起 PII 洩漏事件
模型選擇延至 8 週 POC 的第 7 週才進行
工具與平台
Databricks（Agent Bricks、MLflow、Unity Catalog、Delta Lake、Mosaic AI、Genie text-to-SQL）
Apache Spark、Delta Lake、MLflow（開源底層）
支援三大雲：AWS、Azure、Google Cloud
LLM as Judge（第二層語意評估）
OpenTelemetry（開源 Tracing 方案，QR Code 提供設定指南）
ITSM 系統整合（生產告警）
向量資料庫（RAG 政策文件檢索）
三層評估架構
確定性層（Deterministic）：格式檢查、Regex、NER、PII 偵測、意圖分類
語意層（Non-deterministic）：LLM as Judge 評估接地性（Groundedness）、安全性、相關性
行為層（Behavioral）：工具呼叫正確性、重複 API 呼叫偵測、Agent 迴圈偵測
三種多 Agent 協作模式
Orchestrator-Worker：中央控制，易除錯
Choreography：事件匯流排，平行執行，降低延遲
Human-in-the-Loop：信心分數低於門檻時觸發人工介入
生產事故處理 Playbook 步驟
偵測（評估儀表板）→ 診斷（追蹤記錄）→ 隔離（Prompt 版本回退 / 偏轉至人工）→ 修復（更新測試案例）→ 回歸測試（Eval Suite）→ 整合 ITSM 告警
成本控制技巧
CI 管道中只對 Eval 資料集的小型子集運行測試；只有合併至主分支時才執行全量測試
--

結論

“AI 上生產的關鍵不是模型選擇，而是先建立評估、可觀測性與資料基礎——讓 AI 系統可量測、可追蹤、可問責，Demo 才能真正變成產品。”

完整解析

詳細

Sandy 在 Databricks 擔任資料與 AI 技術主管，此前在 AWS 擔任首席架構師五年。他在演講開頭描述了一個反覆出現的失敗模式：企業在高層壓力下急於展示 AI 成果，第一個動作永遠是「我們該用哪個模型？」，在受控環境下快速打造出一個精緻的 Demo，領導層鼓掌，系統上線——然後幾週後開始崩潰，沒人知道 AI 為何答非所問，既無 ROI 也無法追責。他從這些失敗案例中歸納出三個根本缺口：可觀測性缺口（無法追蹤 AI 決策）、評估缺口（沒有定義可量化的成功標準）、治理缺口（出事時無人負責）。

為此，Sandy 提出一個五柱框架，並強調這五個支柱應在動任何程式碼之前先想清楚。第一柱是評估：不是談泛泛的「準確率」，而是用業務語言定義數字目標，收集領域專家的真實問答案例建立黃金資料集，再打造自動化評估管道持續比對 AI 回應。評估分三層——確定性層處理格式、PII 等規則問題；語意層使用 LLM as Judge 評估接地性與安全性；行為層則檢查 Agent 是否重複呼叫 API、是否陷入迴圈等隱性問題，這第三層常被團隊忽略，但在規模化後成本代價極大。第二柱是可觀測性：以零售銀行 Agent 為例，從意圖分類、資料庫查詢、政策文件檢索、推理到最終護欄檢查，每一步都需要被追蹤記錄，否則無法應對客戶投訴，更無法滿足歐洲監管機構的合規要求。

第三柱是資料基礎，Sandy 認為這是最被低估的支柱，他本人在典型專案中花費 60% 的時間在此。問題在於資料向來是為人類設計的——人類看到錯誤資料會去問人，但 Agent 會自信地給出錯誤答案。資料基礎分兩類：供 AI 回答問題的「問題資料」（預訓練資料、RAG 向量庫、API 連接）與用於監控的「追蹤資料」，後者需要一套完整的 Schema 設計策略，以便同時服務於監管稽核、線上監控與 LLM Judge 評估。第四柱是多 Agent 編排，介紹了 Orchestrator-Worker、Choreography 與 Human-in-the-Loop 三種模式，強調選型需考慮狀態管理與故障容錯。第五柱是治理，包含稽核軌跡、PII 預先驗證、Prompt 版本控制（必須走正式變更管理流程）、以及模型變更管理——模型供應商的 Benchmark 不代表適合企業自己的資料，必須在自有評估資料集上重新驗證。

演講最後以一個零售銀行真實案例作結。該銀行曾花 $85K、六個月打造失敗的 POC，Sandy 的團隊重新介入後，前兩週先建評估框架（200 筆真實客服案例、自動化比對管道），第三至六週完善資料基礎與追蹤系統，直到第七週才選定模型——因為有了評估資料集，模型比較迅速完成。系統上線六週後，一次銀行利率政策更新導致 CSAT 下滑，正因為監控系統到位，團隊迅速追蹤到 Agent 引用了向量資料庫中的舊版政策文件，更新嵌入後問題解決。這個案例完整示範了五柱框架讓 AI 系統「可見、可量測、可問責」的核心價值。

---

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

The Production AI Playbook: Deploying Agents at Enterprise Scale — Sandipan Bhaumik, Databricks

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備