有幸GPT带我亲临DeepSeek-V4 发布会现场

本帖是关于 DeepSeek-V4 预览版发布的模型情况,其核心信息总结如下:

1. 模型发布与基本规格

DeepSeek-V4 预览版已正式上线并开源。它分为两个版本:

  • DeepSeek-V4-Pro:拥有1.6万亿参数,激活参数为490亿,预训练数据达33万亿tokens。

  • DeepSeek-V4-Flash:拥有2840亿参数,激活参数为130亿,预训练数据达32万亿tokens。

两者均标配**1M(一百万)**​ 的超长上下文长度。

2. 模型性能特点

  • DeepSeek-V4-Pro​ 性能对标顶级闭源模型:

    • Agent能力:在Agent评测中表现卓越,内部使用体验优于Sonnet 4.5,交付质量接近Opus 4.6的非思考模式。

    • 世界知识:大幅领先其他开源模型,与顶尖闭源模型如Gemini-Pro-3.1相近。

    • 推理性能:在数学、STEM、竞赛代码等测评中,超越所有已公开评测的开源模型,达到世界顶级水平。

  • DeepSeek-V4-Flash​ 作为更经济的选项:

    • 虽然世界知识储备稍逊于Pro版,但推理能力接近,且由于模型更小,能提供更快捷、经济的服务。

    • 在简单的Agent任务上与Pro版相当,但在高难度任务上有差距。

3. 技术创新

模型采用了创新的注意力机制,在token维度进行压缩,并结合DSA稀疏注意力,实现了全球领先的长上下文处理能力,同时大幅降低了对计算和内存的需求。

4. 访问与使用方式

  • 官方渠道:用户可立即通过官网 (chat.deepseek.com) 或官方App进行对话,网页端/APP分别对应“专家模式”和“快速模式”。

  • API服务:API已同步更新,支持OpenAI ChatCompletions和Anthropic接口。调用时需将model参数改为 deepseek-v4-prodeepseek-v4-flash

    • 文中附带了详细的API定价表,并说明受限于高端算力,当前Pro版服务吞吐有限,价格预计在“昇腾950超节点”批量上市后大幅下调。
  • 开源与本地部署:模型权重已在Hugging Face和ModelScope平台开源,技术报告也已发布。

5. 重要时间节点与兼容性说明

旧有的API接口模型名 deepseek-chatdeepseek-reasoner将于 2026年7月24日​ 停止使用。目前,它们分别指向 deepseek-v4-flash的非思考模式与思考模式。

3 个赞

那我贴个价格 :joy:

1 个赞

刚在公众号看完,上来就看到你发了 :joy:

那我补个链接


  • DeepSeek-V4 模型开源链接:

https://huggingface.co/collections/deepseek-ai/deepseek-v4

  • DeepSeek-V4 技术报告:

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

2 个赞

以后可以炫耀的更直接点儿,哼!(怨念来自嫉妒)。

1 个赞