归档时间:2025年12月3日
视角:独立开发者 / 工程落地 / 极致 ROI
数据基准:官方 API Docs (12.02-12.03) / LMArena Leaderboard (12.03) / 社区实测
核心结论一句话
DeepSeek 负责"生存"(极致降本),Gemini 3 负责"博学"(吞噬数据),GPT-5.1 负责"稳健"(兜底决策)。
维度一:模型家族与核心人设
| 阵营 | 核心型号 | 2025年末人设 | 关键技术特征 |
|---|---|---|---|
| DeepSeek | V3.2 系列 | 「掀桌子的价格屠夫」 | MoE 架构 + Sparse Attention。自 2025.09.29 以来大幅降价(输出成本下降 75%)。用相对竞品便宜 7-10 倍的成本做到了 98% 的旗舰性能。它是你公司的主力劳工,也是整个行业的成本搅局者。 |
| Gemini 3 系列 | 「过目不忘的图书馆」 | 1M+ 原生多模态上下文 + Deep Think 模式。唯一能把整本代码库、长视频、百份 PDF 一口吃下的模型。它是你的外脑硬盘,也是目前 LMArena 盲测的绝对第一。 | |
| OpenAI | GPT-5.1 / o3 | 「守旧稳重的经理人」 | 生态与格式的霸主。虽然贵且上限被追平,但它的 Tool Use、JSON 遵循度、企业级 SLA 依然是工业界最稳的。它是你的风控官,也是最后的保险。 |
维度二:三档位全方位对决(数据修正版)
1. 极限推理档 (Max Compute / Speciale)
战场:数学竞赛、科研攻关、核心算法内核
| 指标 | DeepSeek V3.2 Speciale | Gemini 3 Deep Think | GPT-5.1 Pro |
|---|---|---|---|
| AIME 2025 (高中数学竞赛) | 96.0% |
95.0% | 94.6% (no tools) / 100% (with Python) |
| GPQA Diamond (博士级科学) | 91.9% | 93.8% |
88.1% |
| IMO 2025 / IOI 2025 (世界竞赛) | Gold Medal (35/42 pts / 492/600 pts) |
N/A | N/A |
| HLE (人类最后防线) | 30.6% | 41.0% |
31.6% |
| LMArena Elo (盲测排名) | 社区推测 ~1450* | 1501 |
1457 |
| 工具调用 (Tool Use) | |||
| 一句话评价 | 数学/算法天才,偏科,便宜 | 通才,AGI 味最浓,文科理科通吃,极贵 | 综合最强,但不够惊艳 |
数据源说明:
DeepSeek AIME 96.0%:官方未单独公布 AIME 分数,96% 基于社区盲测推算。官方硬指标为 IMO/IOI 金牌(35/42 pts、492/600 pts)。
DeepSeek Elo ~1450:社区 Reddit 讨论的综合估值,因 V3.2-Speciale 不支持工具调用,未进入 LMSYS 公开排名。
Gemini 3 Deep Think Elo 1501:LMArena 官方公开排名第一。
GPT-5.1-High Elo 1457:LMArena 官方排名(±5 浮动范围)。
选型建议:
写 Python 算法内核、做数学建模 → 无脑选 DeepSeek V3.2-Speciale
遇到 DeepSeek 搞不定的抽象逻辑难题 → 切 Gemini 3 Deep Think
需要最后的决策保险 → 用 GPT-5.1 Pro 复核
2. 深度思考档 (Sweet Spot / Reasoning)
战场:复杂 Agent、代码重构、逻辑分析、日常开发
| 对比项 | DeepSeek V3.2 Reasoner | GPT-5.1 Thinking | Gemini 3 Pro (标准模式) |
|---|---|---|---|
| 特点 | CoT + 工具。继承了 Speciale 的数学脑,补上了工具能力。支持联网、代码执行、文件操作。这是第一个真正打通"思维链+工具调用"的开源模型。 | 自适应思考。根据问题难度自动调整算力,体验最丝滑。不过度思考简单问题,可节省 token。 | 长窗口理解。强项在于读库级代码找 Bug、处理长文档、多模态理解。 |
| 代码能力 | ~73.1% (SWE-bench Verified) | ~72.5% | ~76.2% |
| GPQA | ~85% | ~88% | 91.9% |
| 延迟 | 中等 (~8-15s) | 中等 (~5-12s 自适应) | 快速 (~2-5s) |
| 性价比 |
价格详情(标准时段):
DeepSeek Reasoner:输入 ¥4 (≈0.56) / 输出 ¥16 (≈2.22) / 1M tokens
GPT-5.1 Thinking:输入 2.00 / 输出 8.00 / 1M tokens
Gemini 3 Pro:输入 2.00 / 输出 12.00 / 1M tokens
选型建议:
日常写代码、做 Agent 任务规划 → DeepSeek Reasoner 是首选主力 (成本 1/3)
需要极其稳定的指令遵循(客服/客企应用) → GPT-5.1 Thinking
需要读 50+ PDF 文档或处理长视频 → Gemini 3 Pro
当 DeepSeek 逻辑卡壳时 → 用 GPT-5.1 Thinking 救场
3. 快速响应档 (Chat / Instant)
战场:日常对话、翻译、简单脚本、海量数据清洗、RAG 背景调用
| 对比项 | DeepSeek V3.2 Chat | Gemini 3 Flash | GPT-5.1 Instant |
|---|---|---|---|
| 速度 | |||
| 特长 | 中文理解 / 听劝 / 成本极低 | 1M 长上下文 / 多模态 / 可视化 | 格式控制 / JSON 遵循 / 客服风格 |
| 价格 (标准时段 Cache Hit) | ¥0.5 ≈ $0.07 | ~$0.10 | $0.50+ |
| 价格 (标准时段 Cache Miss) | ¥2 ≈ $0.28 | ~$0.40 | $1.25+ |
| 输出价格 (标准时段) | ¥8 ≈ $1.11 | ~$0.40 | $10+ |
重要说明:
DeepSeek 官方 API 以人民币标价,转换为美元后仍为业界最低价。
之前报道的 “0.028 cache / 0.42 output” 是 9月底降价前后的相对价格变化,但官方现行价格为人民币标价(见上表)。
优惠时段(北京时间 00:30-08:30)可进一步降低约 5-7.5 折。
选型建议:
走量的脏活累活(日志分析、数据清洗、简单翻译)全给 DeepSeek Chat
需要读长文档/视频或多模态处理 → Gemini 3 Flash
需要极度稳定的 JSON 输出或客服 → GPT-5.1 Instant(除非客户指定,否则不推荐)
维度三:商业与 ROI 终极账单
这是"一人公司"盈利的关键。以下价格基于 2025.12.03 官方 API Docs 最新数据(每 1M Tokens,标准时段)
API 定价对比(标准时段)
| 模型 | 输入 (Cache Hit) | 输入 (Cache Miss) | 输出 | 相对基准倍率 | 备注 |
|---|---|---|---|---|---|
| DeepSeek V3.2 Chat | ¥0.5 ≈ $0.07 | ¥2 ≈ $0.28 | ¥8 ≈ $1.11 | 1x (基准) | 官方人民币标价,优惠时段另有 5 折 |
| DeepSeek V3.2 Reasoner | ¥1 ≈ $0.14 | ¥4 ≈ $0.56 | ¥16 ≈ $2.22 | 2x | 同为官方标价 |
| Gemini 3 Flash | ~$0.08 | ~$0.30 | ~$0.40 | ~0.4x | Google 的平价方案 |
| Gemini 3 Pro | ~$2.00 | ~$2.00 | ~$12.00 | ~10x | 长上下文溢价 |
| GPT-5.1 Thinking | $2.00 | $2.00 | $8.00 | ~7x | 中档旗舰 |
| GPT-5.1 Pro | $15.00 | $15.00 | $60.00 | ~50x | 智商税区间 |
换算说明:
汇率基准:1 CNY ≈ $0.139 (2025.12.03 市场价)
所有 DeepSeek 价格为官方 API Docs 原生人民币标价转换
Gemini/GPT 价格为官方美元标价
极限成本案例
场景:一个一人公司月跑 100M 输入 tokens、100M 输出 tokens (标准时段,无缓存)
| 方案 | 构成 | 月成本 | vs DeepSeek |
|---|---|---|---|
| DeepSeek All In (Chat/Reasoner 混用) | 80M chat input@¥2 + 100M chat output@¥8 | ¥960 ≈ $133 | 基准 |
| Gemini 混用 (3 Flash + 部分 3 Pro) | 80M in@0.30 + 20M in@2 + 100M out@$8.00 | $1,000 | ~7.5x |
| GPT-5.1 Thinking 全站 | 100M input@2 + 100M output@8 | $1,000 | ~7.5x |
| 三家联动(最佳实践) | 80% DeepSeek + 15% Gemini + 5% GPT | ~$300 | 最优 |
成本分解:
-
如果启用 DeepSeek 缓存机制(Cache Hit),可额外省 80-90%。月成本从 133 降至 13-27。
-
三家联动中,80% 用 DeepSeek 处理体力活,15% 用 Gemini 处理长文档,5% 用 GPT 做最后审核,综合成本约 $300/月。
关键路由规则
| 触发条件 | 路由目标 | 原因 |
|---|---|---|
| 输入 < 10k tokens, 简单任务 | DeepSeek Chat | 速度快,成本极低 |
| 输入 10-50k tokens, 需要逻辑推理 | DeepSeek Reasoner | 性价比最高,工具完整 |
| 输入 > 50k tokens 或多模态 | Gemini 3 Pro | 1M 上下文物理优势 |
| 最后决策权、高风险审核 | GPT-5.1 Thinking | 稳定性和生态最成熟 |
| Cache Hit 比例 > 70% | 继续用 DeepSeek (节省 80-90%) | 缓存机制的红利期 |
结束语:「善用便宜算力的架构师」时代
现在的 AI 时代属于「善用便宜算力的架构师」。
-
DeepSeek 给了你无限的子弹(月 130 就能跑 100M tokens,缓存启用后仅需 13)
-
Gemini 给了你无限的内存(1M 上下文让你一次性吃下整个工程)
-
GPT 给了你最后的保险(生态和稳定性至今无可匹敌)
这三大件组合,已经是独立开发者逆袭的标配。
附录:数据来源与更新日期
官方数据源
-
Gemini 3 基准数据:Google 官方博客发布(2025年11月17日)
-
DeepSeek V3.2 定价:官方 API Docs(2025年12月3日查证)
-
标准时段(北京时间 08:30-00:30)
-
优惠时段(北京时间 00:30-08:30)约 5 折
-
-
LMArena 排名:https://lmarena.ai/leaderboard(2025年12月3日)
-
GPT-5.1 定价:OpenAI API Docs(2025年12月最新)
-
社区实测数据:Reddit r/LocalLLaMA、Twitter LLM 社区盲测(2025年11月-12月)
价格历史(供参考)
-
DeepSeek 9月大降价(2025.09.29):输出成本从 ¥32 → ¥8(官网转换为现价),相对降幅 75%
-
网络报道的 “0.28 / 0.42” 是对该降价事件的简化表示,非当前美元标价
重要提示 & 幕后花絮
1. 数据时效性 本文数据基于官方文档及社区实测整理,会随各家更新而动态演变。建议每月重新核对一次定价,每季度重新核对一次基准分数。 最后更新时间: 2025 年 12 月 3 日
2. 关于本文的「算力来源」 本文并非由全自动 Agent 生成。真实场景是: 一位只带了手机出门的苦逼工程师,以人肉路由 (Human-based Routing) 的方式,靠大拇指在 Perplexity (实时查据)、Gemini (长文分析)、GPT (逻辑兜底) 三个 App 之间反复横跳完成。
(致敬每一位在路上的开发者:虽然 AI 很强,但至少今天的路由调度,还是我们手搓的。)