KeyFrame

GPT-5.5 vs Claude Opus 4.7: I Made Both Build an App - Here's What Happened

Snyk·5月4日週一·11 min中文

三句話摘要

以相同指令讓 Claude Opus 4.7 與 GPT-5.5 各自從零建置一個生產級應用,並比較功能完整性與程式碼安全性。 當前頂尖 AI 編碼模型能快速搭出可用的骨架,但 CSRF、XSS 等安全細節仍需人工審查,Snyk 這類靜態掃描工具是必不可少的最後一道關卡。 完成速度不代表品質:Opus 4.7 雖然更早完成,但 CSRF 中介層的實作方式有根本性錯誤,導致使用者無法正常訂閱,功能面的可用性輸給 GPT-5.5。

重點整理

重點
  • 1

    完成速度不代表品質:Opus 4.7 雖然更早完成,但 CSRF 中介層的實作方式有根本性錯誤,導致使用者無法正常訂閱,功能面的可用性輸給 GPT-5.5。

  • 2

    安全漏洞數量與嚴重性取捨不同:Opus 4.7 洩漏了 9 個問題,包括硬編碼憑證、密碼比對的時序攻擊(Timing Attack)、無限資源供給(潛在 DoS);GPT-5.5 問題總數較少,但存在直接回傳 HTML 所造成的 XSS 高危漏洞。

  • 3

    CSRF 保護是兩者共同弱點:兩個模型都未能正確實作 CSRF 防護,Opus 4.7 的中介層未保護到狀態變更端點,GPT-5.5 則有類似情況,顯示當前頂尖模型在安全細節上仍需人工審查。

  • 4

    開發過程的可觀察性有差異:Opus 4.7 在 VS Code 中提供較細膩的進度回饋;GPT-5.5 的 Cursor 框架限制了畫面更新的即時顯示,但最終輸出程式碼功能上更完整。

實用技巧與重點

乾貨
  • 模型:Anthropic Claude Opus 4.7、OpenAI GPT-5.5(兩者皆開啟最高推理強度 / Extended Thinking)
  • 工具:VS Code、Cursor、Snyk(Sneak)VS Code Extension、npm audit
  • 完成時間:Opus 4.7 約 12–14 分鐘;GPT-5.5 約 14–16 分鐘
  • Snyk 掃描 — Opus 4.7 安全問題(共 9 個):
  • 硬編碼憑證(Hardcoded Credentials)
  • 密碼比對時序攻擊(Timing Attack on password comparison)
  • Auth.js 無限資源供給 × 多處(DoS 風險)
  • notes.js 第 21 行:外部控制的 Format String(Medium 級)
  • CSRF 中介層未正確保護狀態變更端點
  • Snyk 掃描 — GPT-5.5 安全問題:
  • app.js:HTTP Request Body 直接流入 Send → XSS 高危漏洞
  • CSRF 問題(與 Opus 4.7 類似)
  • 測試檔案中硬編碼(可標記為測試例外,低危)
  • 功能測試結果:GPT-5.5 通過(註冊、訂閱、新增/刪除語言包);Opus 4.7 訂閱功能持續 403 錯誤

結論

結論

當前頂尖 AI 編碼模型能快速搭出可用的骨架,但 CSRF、XSS 等安全細節仍需人工審查,Snyk 這類靜態掃描工具是必不可少的最後一道關卡。

完整解析

詳細

這支影片做了一件任何理性開發者都想做的事:把當下最頂尖的兩個 AI 編碼模型——Anthropic 的 Claude Opus 4.7 與 OpenAI 的 GPT-5.5——送進同一份生產級應用程式的需求說明,在沒有任何人工介入的前提下,讓它們各自完成整個專案,再逐一驗收。兩個模型都開啟了最高推理強度。

在生成階段,Opus 4.7 約花 12–14 分鐘完成,GPT-5.5 則晚了約 2 分鐘。過程中 Opus 4.7 在 VS Code 中提供了更頻繁的進度提示,讓人感覺「知道它在做什麼」;而 GPT-5.5 透過 Cursor 框架,畫面更新較為低調,直到最後才看到結果。Opus 4.7 建出了一個深色模式的精緻介面,具備連線與訂閱功能。然而第一個測試就踩到地雷:點擊訂閱後持續收到 403 錯誤。追查後發現是 CSRF(跨站請求偽造)中介層的設定問題,導致後端拒絕合法的使用者請求。這個問題作者決定不手動修正,以維持「零介入」的測試條件。反觀 GPT-5.5 的版本,從帳號建立、訂閱到語言包的新增與刪除,全程功能正常。

接著兩個專案都透過 Snyk 進行靜態安全掃描。Opus 4.7 共被標記出 9 個問題,性質涵蓋多個層次:硬編碼憑證直接寫死在程式裡是最基本的錯誤;密碼比對若使用一般字串比較而非常數時間比對函式,會暴露出時序攻擊漏洞;Auth.js 與 Notes.js 中多處未做速率限制,構成潛在的 DoS 攻擊面;而 Notes.js 第 21 行有一個中等風險的 Format String 注入點,因為外部輸入直接傳進了 `console.error`。最嚴重的是 CSRF 中介層雖然存在,卻未正確覆蓋到狀態變更的端點,這也解釋了功能測試時 403 的根本原因。GPT-5.5 的掃描結果問題總數較少,但有一個高危的 XSS 漏洞——HTTP Request Body 的內容直接以 HTML 形式回傳給使用者,等於把惡意腳本注入的大門開了一半。CSRF 問題則兩者都有。

綜合來看,這次比較沒有一個全面的贏家。GPT-5.5 在功能完整性上佔優,應用在測試過程中完全可以正常使用;Opus 4.7 的 CSRF 實作缺陷讓核心功能完全無法使用,即便它的介面設計更精緻。安全性上,Opus 4.7 問題數量較多但多為中低風險;GPT-5.5 問題雖少,卻有 XSS 這個直接危及終端使用者的高危漏洞。兩個模型都沒能交出一份零安全疑慮的生產程式碼,這本身就是重要的訊號。

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕