GPT-5.5 vs Claude Opus 4.7: I Made Both Build an App - Here's What Happened

Snyk·5月4日週一·11 min中文

三句話摘要

以相同指令讓 Claude Opus 4.7 與 GPT-5.5 各自從零建置一個生產級應用，並比較功能完整性與程式碼安全性。當前頂尖 AI 編碼模型能快速搭出可用的骨架，但 CSRF、XSS 等安全細節仍需人工審查，Snyk 這類靜態掃描工具是必不可少的最後一道關卡。 完成速度不代表品質：Opus 4.7 雖然更早完成，但 CSRF 中介層的實作方式有根本性錯誤，導致使用者無法正常訂閱，功能面的可用性輸給 GPT-5.5。

重點整理

重點

1
完成速度不代表品質：Opus 4.7 雖然更早完成，但 CSRF 中介層的實作方式有根本性錯誤，導致使用者無法正常訂閱，功能面的可用性輸給 GPT-5.5。
2
安全漏洞數量與嚴重性取捨不同：Opus 4.7 洩漏了 9 個問題，包括硬編碼憑證、密碼比對的時序攻擊（Timing Attack）、無限資源供給（潛在 DoS）；GPT-5.5 問題總數較少，但存在直接回傳 HTML 所造成的 XSS 高危漏洞。
3
CSRF 保護是兩者共同弱點：兩個模型都未能正確實作 CSRF 防護，Opus 4.7 的中介層未保護到狀態變更端點，GPT-5.5 則有類似情況，顯示當前頂尖模型在安全細節上仍需人工審查。
4
開發過程的可觀察性有差異：Opus 4.7 在 VS Code 中提供較細膩的進度回饋；GPT-5.5 的 Cursor 框架限制了畫面更新的即時顯示，但最終輸出程式碼功能上更完整。

實用技巧與重點

乾貨

模型：Anthropic Claude Opus 4.7、OpenAI GPT-5.5（兩者皆開啟最高推理強度 / Extended Thinking）
工具：VS Code、Cursor、Snyk（Sneak）VS Code Extension、npm audit
完成時間：Opus 4.7 約 12–14 分鐘；GPT-5.5 約 14–16 分鐘
Snyk 掃描 — Opus 4.7 安全問題（共 9 個）：
硬編碼憑證（Hardcoded Credentials）
密碼比對時序攻擊（Timing Attack on password comparison）
Auth.js 無限資源供給 × 多處（DoS 風險）
notes.js 第 21 行：外部控制的 Format String（Medium 級）
CSRF 中介層未正確保護狀態變更端點
Snyk 掃描 — GPT-5.5 安全問題：
app.js：HTTP Request Body 直接流入 Send → XSS 高危漏洞
CSRF 問題（與 Opus 4.7 類似）
測試檔案中硬編碼（可標記為測試例外，低危）
功能測試結果：GPT-5.5 通過（註冊、訂閱、新增／刪除語言包）；Opus 4.7 訂閱功能持續 403 錯誤

結論

“當前頂尖 AI 編碼模型能快速搭出可用的骨架，但 CSRF、XSS 等安全細節仍需人工審查，Snyk 這類靜態掃描工具是必不可少的最後一道關卡。”

完整解析

詳細

這支影片做了一件任何理性開發者都想做的事：把當下最頂尖的兩個 AI 編碼模型——Anthropic 的 Claude Opus 4.7 與 OpenAI 的 GPT-5.5——送進同一份生產級應用程式的需求說明，在沒有任何人工介入的前提下，讓它們各自完成整個專案，再逐一驗收。兩個模型都開啟了最高推理強度。

在生成階段，Opus 4.7 約花 12–14 分鐘完成，GPT-5.5 則晚了約 2 分鐘。過程中 Opus 4.7 在 VS Code 中提供了更頻繁的進度提示，讓人感覺「知道它在做什麼」；而 GPT-5.5 透過 Cursor 框架，畫面更新較為低調，直到最後才看到結果。Opus 4.7 建出了一個深色模式的精緻介面，具備連線與訂閱功能。然而第一個測試就踩到地雷：點擊訂閱後持續收到 403 錯誤。追查後發現是 CSRF（跨站請求偽造）中介層的設定問題，導致後端拒絕合法的使用者請求。這個問題作者決定不手動修正，以維持「零介入」的測試條件。反觀 GPT-5.5 的版本，從帳號建立、訂閱到語言包的新增與刪除，全程功能正常。

接著兩個專案都透過 Snyk 進行靜態安全掃描。Opus 4.7 共被標記出 9 個問題，性質涵蓋多個層次：硬編碼憑證直接寫死在程式裡是最基本的錯誤；密碼比對若使用一般字串比較而非常數時間比對函式，會暴露出時序攻擊漏洞；Auth.js 與 Notes.js 中多處未做速率限制，構成潛在的 DoS 攻擊面；而 Notes.js 第 21 行有一個中等風險的 Format String 注入點，因為外部輸入直接傳進了 `console.error`。最嚴重的是 CSRF 中介層雖然存在，卻未正確覆蓋到狀態變更的端點，這也解釋了功能測試時 403 的根本原因。GPT-5.5 的掃描結果問題總數較少，但有一個高危的 XSS 漏洞——HTTP Request Body 的內容直接以 HTML 形式回傳給使用者，等於把惡意腳本注入的大門開了一半。CSRF 問題則兩者都有。

綜合來看，這次比較沒有一個全面的贏家。GPT-5.5 在功能完整性上佔優，應用在測試過程中完全可以正常使用；Opus 4.7 的 CSRF 實作缺陷讓核心功能完全無法使用，即便它的介面設計更精緻。安全性上，Opus 4.7 問題數量較多但多為中低風險；GPT-5.5 問題雖少，卻有 XSS 這個直接危及終端使用者的高危漏洞。兩個模型都沒能交出一份零安全疑慮的生產程式碼，這本身就是重要的訊號。

關鍵時刻

Pipeline v2

帶時間戳的重點，會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

GPT-5.5 vs Claude Opus 4.7: I Made Both Build an App - Here's What Happened

三句話摘要

重點整理

實用技巧與重點

結論

完整解析

關鍵時刻

事實查核

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手？

我贏得 NVIDIA GTC Taipei 2026 的金票啦！這 4 天展期會有什麼不一樣的體驗呢？ | Computex 2026

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備