【评测】智学指数回顶:Gemini 3.1 Pro 登顶 AA 榜单,性价比横扫硅谷

独立评测机构 Artificial Analysis 刚刚发布了 Gemini 3.1 Pro Preview 的实测报告,结论非常振奋:Google 重新夺回了 AI 智力的领跑者地位,且在成本上给了对手“致命一击”。

:trophy: 智力指数登顶:反超 Claude 与 GPT

在最新的 Artificial Analysis Intelligence Index 中,Gemini 3.1 Pro 以 57 分的绝对优势登顶,领先 Claude Opus 4.6 整整 4 分。

  • 10 项全能,6 项冠军:在 10 项核心能力评测中,Gemini 3.1 Pro 拿下了 6 项第一。
  • 科研天花板:在 CritPt(未公开的科研级物理推理)中得分 18%,高出第二名 5 个百分点,展现了恐怖的科学逻辑。

:laptop: 编码与反幻觉的质变

  • 最强编程模型:拿下编码指数(Coding Index)第一。其中 Terminal-Bench Hard(终端任务)和 SciCode 双双夺冠。
  • 幻觉率暴降:在全知指数(AA-Omniscience)测试中,其错误猜测率比 3 Pro 降低了 38%,大大增强了商业环境的可信度。
  • 多模态统治力:MMMU-Pro 排名前三被 Google 全家桶(3.1 Pro / 3 Pro / 3 Flash)承包,多模态推理依然是 Google 的护城护。

:money_bag: 性价比:不到对手一半的成本

这是本次测评中最具杀伤力的数据:

  • 运行成本:跑完完整智力测试仅需 $892
  • 对比竞争对手:其成本不到 Claude Opus 4.6 (Max) 或 GPT-5.2 (xhigh) 的一半
  • Token 效率:在大幅提升性能的同时,Token 消耗量仅增加了 2%,每百万 Token 价格维持在 $2/$12。

:light_bulb: 行业洞察:Google 的“防御性反击”

Gemini 3.1 Pro 的策略非常明确:用顶级的推理能力,配上中量级模型的价格

尽管在 GDPval-AA(真实世界 Agent 任务)中虽有进步但仍屈居 Claude 之下,但其在科学推理、反幻觉多模态上的全能表现,结合极高的性价比,让它成为了大型企业级应用的首选。

大家觉得这次 Google 是不是真的靠 3.1 翻盘了?1/2 的价格是否会让你们从 Claude 迁移到双子座?


数据来源Artificial Analysis on X