GPT-5.5 vs Claude Opus 4.7: I Made Both Build an App - Here's What Happened
三句話摘要
以相同指令讓 Claude Opus 4.7 與 GPT-5.5 各自從零建置一個生產級應用,並比較功能完整性與程式碼安全性。 當前頂尖 AI 編碼模型能快速搭出可用的骨架,但 CSRF、XSS 等安全細節仍需人工審查,Snyk 這類靜態掃描工具是必不可少的最後一道關卡。 完成速度不代表品質:Opus 4.7 雖然更早完成,但 CSRF 中介層的實作方式有根本性錯誤,導致使用者無法正常訂閱,功能面的可用性輸給 GPT-5.5。
重點整理
重點- 1
完成速度不代表品質:Opus 4.7 雖然更早完成,但 CSRF 中介層的實作方式有根本性錯誤,導致使用者無法正常訂閱,功能面的可用性輸給 GPT-5.5。
- 2
安全漏洞數量與嚴重性取捨不同:Opus 4.7 洩漏了 9 個問題,包括硬編碼憑證、密碼比對的時序攻擊(Timing Attack)、無限資源供給(潛在 DoS);GPT-5.5 問題總數較少,但存在直接回傳 HTML 所造成的 XSS 高危漏洞。
- 3
CSRF 保護是兩者共同弱點:兩個模型都未能正確實作 CSRF 防護,Opus 4.7 的中介層未保護到狀態變更端點,GPT-5.5 則有類似情況,顯示當前頂尖模型在安全細節上仍需人工審查。
- 4
開發過程的可觀察性有差異:Opus 4.7 在 VS Code 中提供較細膩的進度回饋;GPT-5.5 的 Cursor 框架限制了畫面更新的即時顯示,但最終輸出程式碼功能上更完整。
實用技巧與重點
乾貨- 模型:Anthropic Claude Opus 4.7、OpenAI GPT-5.5(兩者皆開啟最高推理強度 / Extended Thinking)
- 工具:VS Code、Cursor、Snyk(Sneak)VS Code Extension、npm audit
- 完成時間:Opus 4.7 約 12–14 分鐘;GPT-5.5 約 14–16 分鐘
- Snyk 掃描 — Opus 4.7 安全問題(共 9 個):
- 硬編碼憑證(Hardcoded Credentials)
- 密碼比對時序攻擊(Timing Attack on password comparison)
- Auth.js 無限資源供給 × 多處(DoS 風險)
- notes.js 第 21 行:外部控制的 Format String(Medium 級)
- CSRF 中介層未正確保護狀態變更端點
- Snyk 掃描 — GPT-5.5 安全問題:
- app.js:HTTP Request Body 直接流入 Send → XSS 高危漏洞
- CSRF 問題(與 Opus 4.7 類似)
- 測試檔案中硬編碼(可標記為測試例外,低危)
- 功能測試結果:GPT-5.5 通過(註冊、訂閱、新增/刪除語言包);Opus 4.7 訂閱功能持續 403 錯誤
結論
結論“當前頂尖 AI 編碼模型能快速搭出可用的骨架,但 CSRF、XSS 等安全細節仍需人工審查,Snyk 這類靜態掃描工具是必不可少的最後一道關卡。”
完整解析
詳細這支影片做了一件任何理性開發者都想做的事:把當下最頂尖的兩個 AI 編碼模型——Anthropic 的 Claude Opus 4.7 與 OpenAI 的 GPT-5.5——送進同一份生產級應用程式的需求說明,在沒有任何人工介入的前提下,讓它們各自完成整個專案,再逐一驗收。兩個模型都開啟了最高推理強度。
在生成階段,Opus 4.7 約花 12–14 分鐘完成,GPT-5.5 則晚了約 2 分鐘。過程中 Opus 4.7 在 VS Code 中提供了更頻繁的進度提示,讓人感覺「知道它在做什麼」;而 GPT-5.5 透過 Cursor 框架,畫面更新較為低調,直到最後才看到結果。Opus 4.7 建出了一個深色模式的精緻介面,具備連線與訂閱功能。然而第一個測試就踩到地雷:點擊訂閱後持續收到 403 錯誤。追查後發現是 CSRF(跨站請求偽造)中介層的設定問題,導致後端拒絕合法的使用者請求。這個問題作者決定不手動修正,以維持「零介入」的測試條件。反觀 GPT-5.5 的版本,從帳號建立、訂閱到語言包的新增與刪除,全程功能正常。
接著兩個專案都透過 Snyk 進行靜態安全掃描。Opus 4.7 共被標記出 9 個問題,性質涵蓋多個層次:硬編碼憑證直接寫死在程式裡是最基本的錯誤;密碼比對若使用一般字串比較而非常數時間比對函式,會暴露出時序攻擊漏洞;Auth.js 與 Notes.js 中多處未做速率限制,構成潛在的 DoS 攻擊面;而 Notes.js 第 21 行有一個中等風險的 Format String 注入點,因為外部輸入直接傳進了 `console.error`。最嚴重的是 CSRF 中介層雖然存在,卻未正確覆蓋到狀態變更的端點,這也解釋了功能測試時 403 的根本原因。GPT-5.5 的掃描結果問題總數較少,但有一個高危的 XSS 漏洞——HTTP Request Body 的內容直接以 HTML 形式回傳給使用者,等於把惡意腳本注入的大門開了一半。CSRF 問題則兩者都有。
綜合來看,這次比較沒有一個全面的贏家。GPT-5.5 在功能完整性上佔優,應用在測試過程中完全可以正常使用;Opus 4.7 的 CSRF 實作缺陷讓核心功能完全無法使用,即便它的介面設計更精緻。安全性上,Opus 4.7 問題數量較多但多為中低風險;GPT-5.5 問題雖少,卻有 XSS 這個直接危及終端使用者的高危漏洞。兩個模型都沒能交出一份零安全疑慮的生產程式碼,這本身就是重要的訊號。
關鍵時刻
Pipeline v2帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。
事實查核
Pipeline v2說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。


