【评测】Claude Sonnet 4.6 深度解析:Agent 能力封神,但代价是 3 倍的 Token 消耗

独立评测机构 Artificial Analysis 刚刚发布了对于 Claude Sonnet 4.6 的全面智力指数分析。这份数据非常有趣:它在某些特定场景下已经超越了自家的老大哥 Opus 4.6,但这种“进化”是有代价的。

:bar_chart: 核心评测亮点

  • 智力指数 (Intelligence Index):得分 51(前代 4.5 为 43 分),目前与 GPT-5.2 (xhigh) 并列全球第二,仅次于 Claude Opus 4.6 (53分)。
  • Agent 能力夺冠:在 GDPval-AA(真实世界 Agent 任务)和 TerminalBench(Agent 编码与终端使用)两项关键评测中,Sonnet 4.6 不仅领先其他厂商,甚至微弱超越了 Opus 4.6
  • 最强 Agent 模型:评测机构将其定义为目前测试过的“用于 Agent 场景的最强模型”。

:brain: “脑容量”与“思考”模式

  1. 自适应思考 (Adaptive Thinking):引入了与 Opus 4.6 相同的模式,取消了固定 Token 预算,改用 Effort (努力程度) 设置(low, medium, high, max)。
  2. 100万上下文:上下文窗口从 200K 跃升至 1M Token(目前处于 Beta 阶段)。
  3. 128K 输出:最大单次输出 Token 翻倍(64K → 128K)。

:chart_increasing: “大力出奇迹”的代价:Token 效率下降

Sonnet 4.6 的强大性能是建立在“海量思考”基础上的:

  • Token 消耗暴增:在“Max Effort”模式下,其输出 Token 消耗量约为 Sonnet 4.5 的 3倍,比 Opus 4.6 还要多出 28%。
  • 真实成本上涨:虽然每 1M Token 的定价维持在 $3/$15 (输入/输出) 不变,但由于 Token 消耗量的剧增,处理同类任务的实际支出将是 4.5 版本的三倍左右

:light_bulb: 总结与建议

Sonnet 4.6 极度缩小了与顶级旗舰 Opus 的差距(从 7 分缩小到 2 分),而在 Agent 和 Coding 场景下,它已经成为了事实上的性能标杆。

使用建议:

  • 如果你追求 最强智能体执行力性价比均衡,选 Sonnet 4.6。
  • 如果你的任务对 Token 效率和成本敏感,请务必调低其“努力程度 (Effort)”,或者留守 4.5 版本。

大家觉得这次 Anthropic 的“以 Token换智能”的策略值得吗?欢迎讨论!


数据来源Artificial Analysis on X