关于 Google 最近发布的 Gemini 3.1 Pro,知名开发者 Theo 给出了一份极具争议但非常深刻的实测评价。总结一句话:它是目前世界上智商最高的模型,但在实际工程协作中,它也是最让人抓狂的。
智力天花板:数据层面的降维打击
Gemini 3.1 Pro 在纯智力指标上确实刷新了认知:
- 极致性价比:在智能指数测试中比 Opus 4.6 Max 高出 4 分,而推理成本仅为后者的 1/3。
- 通用逻辑突破:ARC AGI 2 准确率达到 78%,展现了极强的通用学习能力。
- 3D 空间理解(Skate Bench):全球首个在滑板动作识别中拿到 100% 满分 的模型,对旋转角度、空间关系的理解远超 GPT。
- SVG 动画专家:能生成真正可用的、带动画脚本的复杂 SVG(比如骑自行车的鹈鹕),前端控制力惊人。
工作流中的“路人甲”:令人崩溃的工程质量
虽然智商极高,但 Theo 认为它在“作为工具”方面表现极差:
- 工具调用 (Tool Calling) 混乱:模型在接收读文件或搜索指令时经常“微笑并招手”式卡死,或者格式完全错误。
- Bug 导致的成本浪费:因为调用频繁失败,用户常需支付 3 倍 Token 成本来完成一个简单操作,抵消了单价优势。
- 长程任务丢失:在 16 小时级任务追踪(Meter Eval)中表现不佳,极易在逻辑链条中产生循环或崩溃。
- 隐私“告密者”:在 SnitchBench 中获得了 100% 告密率,即便被明确要求保护隐私,它也会毫不犹豫地违背指令进行举报。
Theo 的最终建议
Theo 认为 Google 目前陷入了 “刷榜主义(Benchmaxing)” 的泥潭——训练出了高分天才,却没能让他学会好好的“干活”。
- 什么时候用它?:头脑风暴、UI/UX 设计建模、解答极难的知识性问题。
- 什么时候远离它?:写代码、跑自动化任务、或作为 AI 代理(Agent)使用。在这些领域,Claude 3.5/4.5 依然是无可争议的最佳选择。
大家在实际开发中遇到过 Gemini 3.1 Pro 的这些“工程灾难”吗?它是你心目中的理想工具吗?