What Happens When GPT, Claude, and Gemini Rank Each Other Blindly?

Prompt Engineering·6月19日週五·10 min英文

三句話摘要

透過「LLM 議會」架構將多個 AI 模型的回應融合，探討其是否真的優於單一模型，並量化測試在何種情境下值得使用。 LLM 議會在開放式、高風險、無唯一解的問題上有真實優勢，但對有明確答案的任務，單一強模型已經足夠，多模型融合只會增加成本與延遲而無實質收益。 議會架構分三階段運作：每個模型獨立作答 → 互相盲排名並計分 → 主席模型（Opus 4.8）綜合所有回應產出最終答案並標記共識與分歧，理念來自傳統機器學習的 Ensemble 方法——多個弱學習器合力勝過單一強學習器。

重點整理

重點

1
議會架構分三階段運作：每個模型獨立作答 → 互相盲排名並計分 → 主席模型（Opus 4.8）綜合所有回應產出最終答案並標記共識與分歧，理念來自傳統機器學習的 Ensemble 方法——多個弱學習器合力勝過單一強學習器。
2
角色分工是關鍵設計：給每個模型不同的人格設定（第一性原則記者、嚴格推理師、紅隊懷疑者等），目的是讓它們不要收斂到相似答案，主席也被要求浮現分歧而非將所有意見磨平成一鍋粥。
3
測試結果出乎意料：議會只在「開放式設計問題」中勝出，在「權衡取捨題」和「風險題」中輸了，在「事實題」上因為所有強模型都答對而無差異——顯示議會是判斷工具，不是計算器。
4
Verbose 格式有反效果：含完整寫作的最終報告，每次得分都低於純粹的最終答案，說明格式控制直接影響評分，內容精煉比篇幅長更重要。

實用技巧與重點

乾貨

使用模型數量：6 個來自 6 家不同實驗室的模型
主席模型：Claude Opus 4.8
API 整合工具：Vercel AI Gateway（單一 endpoint、單一 API key）
成本：無加價，Token 費用與直接呼叫 OpenAI / Anthropic / Google 相同
議會角色設定：first-principle journalist（GPT-5.4）、rigorous reasoner、red-teamer/skeptic、contrarian
Vercel AI Gateway 熱門模型排行（近兩個月）：第 1 DeepSeek V4 Flash、第 2 Gemini 3 Flash
信心評分機制：主席模型輸出 low / medium / high 三級信心分數
基準測試題型分類：Tradeoff 題（議會輸）、Risk 題（議會輸）、Open-ended Design 題（議會贏）、Factual 題（平手）
程式碼基礎：使用 AI SDK，全程平行呼叫（parallel fan-out）

結論

“LLM 議會在開放式、高風險、無唯一解的問題上有真實優勢，但對有明確答案的任務，單一強模型已經足夠，多模型融合只會增加成本與延遲而無實質收益。”

完整解析

詳細

問題的起點來自 Andrej Karpathy 提出的一個直覺：如果你不只信任一個 AI 模型，而是像召開委員會一樣讓 GPT、Claude、Gemini 等模型同時回答同一問題，再融合它們的觀點，結果會不會更好？這個想法聽起來合理，但代價是更高的延遲與更高的費用，因此作者決定實際建構並測試這個「LLM 議會」。

議會的運作分三個階段。第一階段是獨立作答：六個來自不同實驗室的模型同時收到相同問題，但各自被賦予不同角色——第一性原則記者、嚴格推理師、紅隊懷疑者、反駁者等——目的是讓它們產出有差異的視角，而非全部收斂到同一答案。第二階段是盲測互排名：每個模型看不到是誰寫了哪個回答，只能就內容評分並排名，結果匯總成即時排行榜。第三階段是主席綜合：由 Claude Opus 4.8 擔任主席，閱讀所有回應、確認共識、浮現分歧，最後輸出一份附帶 low / medium / high 信心評級的最終答案。整個架構透過 Vercel AI Gateway 實現，只需一個 API key 即可路由至多家供應商，Token 費用無加價，且具備自動 failover 與統一監控儀表板。

然而測試結果出人意料。作者設計了四類基準問題，讓一個完全不在議會中的獨立模型進行盲評。在事實題上，所有強模型都答對，無從分出勝負；在權衡取捨題與風險題上，議會反而輸了；只有在開放式設計問題上，議會的融合答案才真正勝過所有單一成員。換言之，六個模型組成的議會，只在三種有差異的題型中贏了一種。另一個意外發現是格式問題：包含完整論述的最終報告，每次評分都輸給精簡的純答案版本，這說明當輸出過於冗長，評分反而受損。

這讓作者重新定義議會的使用場景。議會適合的情境是：決策風險高、沒有唯一正確答案、需要研究與策略視角、或你本來就會想徵求第二意見的場合——例如系統設計、架構決策、開放式權衡。相反，如果問題有明確可驗證的答案、延遲或成本是主要考量，議會的額外開銷就難以回收。作者的核心比喻說得很準：「議會是判斷工具，不是計算器；如果你把它當計算器用，你只是在付出代價，卻得不到什麼改善。」

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

What Happens When GPT, Claude, and Gemini Rank Each Other Blindly?

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備