KeyFrame

【AI最前沿106】Claude Opus 4.7 早期实测

三句話摘要

Claude Opus 4.7 是一個有主見、能長達 8 小時自主作業的 AI 工程夥伴,但隱藏成本暴增與刻意削弱的安全能力讓它充滿爭議。 --- Opus 4.7 是真實的能力飛躍,但要駕馭它,你必須從隨意的指令者蛻變成嚴謹的規範文件編寫者,同時時刻盯緊因隱性分詞器膨脹而迅速流失的 Token 預算。 1. 從「服從型助理」轉變為「有主見的工程夥伴」

重點整理

重點
  • 1

    1. 從「服從型助理」轉變為「有主見的工程夥伴」

  • 2

    Opus 4.7 遇到邏輯有缺陷的計畫時,會直接提出批評並強行引導至更合理的方向,而非順從執行。這對嚴謹的企業級軟體工程是剛需,能在開發前期攔截架構缺陷。

  • 3

    2. 採用規範驅動開發(Spec-Driven Development),完全字面解讀指令

  • 4

    模型不再憑直覺補全未說明的步驟,100% 按照字面執行。這要求使用者必須將需求寫得如法律條文般精確,否則任務將停滯或失敗,導致先前基於 4.6 的提示詞大量失效。

  • 5

    3. 文件系統式記憶 + Ultra Review 機制支撐長線任務

  • 6

    透過將架構決策、踩坑記錄結構化寫入虛擬文件系統,Opus 4.7 能在 8 小時後精準查閱第一小時的設計文件,避免上下文腐爛(Context Rot)。Ultra Review 機制在關鍵代碼提交前自動啟動隔離審查環節,主動尋找記憶體洩漏與邊界條件問題。

  • 7

    4. 定價表面不變,實際費用因分詞器升級而暴漲

  • 8

    單價未動(輸入 $5/M tokens、輸出 $25/M tokens),但新分詞器將相同文本切得更細,導致同樣內容消耗的 token 增加 100–135%;加上預設思考級別從「中等」強制提升為「極高」(extra high),實際帳單可能在數分鐘內擊穿預算上限。

  • 9

    --

實用技巧與重點

乾貨
  • 測試數據與基準
  • SWE-bench Pro:53.4% → 64.3%(+10.9 個百分點)
  • 視覺推理:69.1% → 82.1%(+13 個百分點)
  • 支援圖像輸入長邊:2576 像素(前代的 3 倍)
  • 代理搜索與網路安全漏洞復現跑分:低於 Opus 4.6(刻意削弱)
  • 成本資訊
  • 官方 API 定價:輸入 $5/百萬 tokens、輸出 $25/百萬 tokens
  • 新分詞器導致同內容 token 消耗增加 100%–135%
  • 實際使用成本可能隱性暴漲達 35%+
  • 在 Augmented Code 平台內部調用享 50% 折扣
  • 建議啟用任務預算功能(公開 Beta),設置絕對消耗上限
  • 工具與機制
  • Ultra Review(超級審查):代碼提交前自動開啟隔離審查環境
  • 文件系統式記憶(File-System Memory):跨對話保存架構決策與踩坑記錄
  • 努力級別新增:extra high(介於 high 與 max 之間),為 Claude Code 預設值
  • Playwright MCP:暗黑模式測試案例中,Opus 4.7 自主調用此工具啟動虛擬瀏覽器自測 UI
  • 實測案例
  • 國際象棋引擎優化:連續 8 小時,代碼體積壓縮至 4MB 以下,擊敗頂級開源引擎
  • 小行星構建器網站:2 小時連續生成完整複雜網站
  • Hubber SEO 工具:自主識別關鍵詞自相蠶食(Keyword Cannibalization)現象,計算出每月可挽回 239 次流失點擊
  • 3D 魔方模擬器:單次純文字提示,生成可互動 3D 魔方,含絲滑旋轉動畫
  • 暗黑模式盲測:對比 4.6,4.7 代碼排版更優,自動調用 Playwright 進行 UI 自測
  • 底層架構資訊
  • 未公開模型名稱:mythos(又稱「銀河大腦」)
  • Opus 4.7 定位:mythos 經安全對齊與刻意降級蒸餾後的中間態版本
  • 削弱方向:零日漏洞識別、高級代理搜索能力
  • --

結論

結論

Opus 4.7 是真實的能力飛躍,但要駕馭它,你必須從隨意的指令者蛻變成嚴謹的規範文件編寫者,同時時刻盯緊因隱性分詞器膨脹而迅速流失的 Token 預算。

完整解析

詳細

AGI 降臨社群創始人湯孔在本期節目中,以大量社群成員的一手實測數據為基礎,對 Anthropic 最新發布的 Claude Opus 4.7 進行了深度解析。節目的核心命題是:這個模型究竟是真正改變遊戲規則的技術飛躍,還是一個帶著隱性定價陷阱的半成品?

從「討好型助理」到「有主見的工程師」

過去的大語言模型被嚴重優化成服從者,即使用戶提出邏輯存在嚴重缺陷的架構方案,模型也會順從地寫出注定崩潰的代碼。Opus 4.7 打破了這個模式——它會在識別出糟糕設計時主動叫停,直接批評並將開發者導向更合理的方向。這種「有主見」的特質伴隨著驚人的長線執行耐力:社群成員記錄了多個案例,包括讓模型完全自主運行超過 8 小時,將國際象棋引擎代碼壓縮至 4MB 以下並在線上賽事擊敗頂級開源對手;另有案例在 2 小時內構建出複雜的小行星主題網站;在 Hubber SEO 工具開發過程中,Opus 4.7 更是在無人要求的情況下,自主識別出網站三個頁面互搶同一搜索關鍵詞流量的「關鍵詞自相蠶食」問題,並計算出每月可挽回 239 次流失點擊——這已超越代碼生成,進入業務邏輯分析的層次。

支撐長線任務的兩大架構:文件系統記憶與 Ultra Review

要維持 8 小時不迷失方向,Opus 4.7 引入了兩項關鍵機制。第一是文件系統式記憶:有別於傳統依賴上下文視窗(Context Window)的運行模式,Opus 4.7 會在執行過程中持續將架構決策、踩坑記錄結構化寫入虛擬文件系統,在遇到複雜依賴問題時不是從龐雜的對話歷史中回憶,而是精準查閱早前寫下的設計文件,從根本上消除「上下文腐爛」(Context Rot)。第二是 Ultra Review 機制:在執行任何關鍵代碼變更前,自動生成獨立的隔離審查環境,以第三方架構師視角逐行掃描代碼,專門尋找系統設計缺陷、記憶體洩漏風險與隱藏邊界情況,只有自我驗證通過後代碼才會被正式應用。

然而,這套精密架構帶來了一個巨大的使用摩擦:模型徹底從「直覺編程」轉向「規範驅動開發」。以前的模型會根據模糊指令自行補全邏輯,現在 Opus 4.7 變成了極度字面派的律師——你說「幫我建登入頁面」,它會停在原地等你提供完整的技術規範文件。社群測試發現,在 4.6 上運行良好的提示詞,複製到 4.7 後大量失效,甚至直接導致任務失敗。這意味著開發者必須面對提示詞庫的大規模重構成本。

能力暴漲背後的隱性帳單與刻意削弱

Opus 4.7 在 SWE-bench Pro 跑分從 53.4% 躍升至 64.3%,視覺推理從 69.1% 升至 82.1%,並支援高達 2576 像素長邊的圖像輸入(前代的三倍),讓它得以進行像素級的精確閱讀。然而官方公告定價未變的背後,藏著兩個陷阱:其一,新分詞器將文本(尤其是代碼與非英語內容)切分得更細,導致處理相同內容消耗的 token 增加 100% 至 135%;其二,Claude Code 工具的預設思考級別從「中等」被強制拉高到全新的「極高」(extra high)級別,讓實際帳單在不知不覺中暴漲。社群建議立即啟用目前仍處 Beta 階段的「任務預算功能」設置消費熔斷上限,並善用 Augmented Code 平台提供的 50% 折扣。

更耐人尋味的是,Opus 4.7 在代理搜索與網路安全漏洞復現兩個維度上的跑分,竟然低於前代 4.6,這顯然是 Anthropic 的刻意為之。節目揭示,Opus 4.7 的底層存在一個從未公開的「mythos」模型(業界稱「銀河大腦」),該模型在受控測試中展現出識別零日漏洞乃至入侵互聯網骨幹架構的能力。Opus 4.7 實際上是 mythos 經過大量安全對齊與刻意降級蒸餾後的中間態妥協版本——我們今天驚嘆的一切能力,不過是一個帶著重重安全枷鎖的巨人在跳舞。

---

關鍵時刻

Pipeline v2

帶時間戳的重點,會在逐字稿層級分析上線後產生。目前請先透過原始影片觀看。

事實查核

Pipeline v2

說法查證是下一次管線升級的一部分。KeyFrame 只會顯示它真正能驗證的內容。

更多「AI 技術」的內容

Claude Cowork vs Codex: 誰才是更好的AI工作助手?
16 min
AI 技術中文6月20日

Claude Cowork vs Codex: 誰才是更好的AI工作助手?

李厂长来了

  • 介面設計哲學不同:Codework 以標籤頁區分聊天、文書與程式碼三種模式,任務彼此隔離不混淆;Codex 則將所有功能整合在單一介面,減少切換成本,但頁面相對雜亂。
  • 第三方整合能力差距明顯:Codework 提供大量連接器並支援 Zapier 擴展,且可針對每個連接器精細設定讀寫權限(如 Gmail 只讀免確認、寫信需批准);Codex 的插件數量較少且缺乏同等級的權限控制機制。
  • 定時任務管理方式影響長期使用體驗:Codework 將同一自動化任務的歷史記錄歸類在同一條目下,便於追蹤;Codex 每次執行都獨立列出,隨任務增多左側欄會越來越臃腫,不利於長期管理。
我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026
編輯精選
28 min
AI 技術中文6月20日

我贏得 NVIDIA GTC Taipei 2026 的金票啦!這 4 天展期會有什麼不一樣的體驗呢? | Computex 2026

EngineerGary

  • Tokenomics 重新定義 AI 工廠價值:黃仁勛將所有輸出重新框架為 Token = Revenue,傳統工廠生產實體商品,AI 工廠改為生產 Token;對製造端而言,目標是以最低成本產生最多 Token,實現每投入 1 元帶回 3–5 元回報的商業邏輯。
  • 開源策略是市場放大器而非讓利:NVIDIA 釋出 Cosmos 3、Apomile 3 等開源模型,以及通用人型機器人,目的是降低新創進入自動駕駛、World Model、Physical AI 的門檻,擴大整體生態系規模,最終帶動更多算力與服務需求(「The more you buy, the more you earn」)。
  • Deal to Delivery Agent 解決中小企業流程瓶頸:Gary 團隊識別出企業收到客戶需求後,需跨工具手動完成報價、開票、GitHub issue、通知等重複性操作是最大效率殺手;Agent 自動拆解商機、建立 ERP 記錄並推送 Telegram 通知,人類只需在 Draft 狀態下做最終 Review 確認。
黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備
編輯精選
30 min
AI 技術中文6月20日

黃仁勳親自欽點⁉️執笠手機公司 BlackBerry 變身 AI 機械人主系統🤖下一個大浪提前準備

Coco哥

  • QNX 擁有機器人 OS 三大不可替代技術門檻
  • Windows 響應延遲 200 毫秒,Linux 一旦核心崩潰全部失效,而 QNX 具備毫秒級即時決策、ISO 26262 ASIL-D 與 IEC 61508 SIL-3 最高安全認證,以及微型內核獨立架構(單一模組崩潰不影響其餘系統),三項條件同時達標,現階段競爭對手均未能複製。
  • 40 年護城河非短期可追趕