《DeepSeek-V3:人工智能大语言模型》
1. 引言
我们介绍了 DeepSeek-V3,这是一个强大的专家混合 (MoE) 语言模型,总共有 671B 个参数,每个令牌激活了 37B。 为了实现高效的推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了全面验证。 此外,DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略,并设定了多标记预测训练目标以获得更强的性能。 我们在 14.8 万亿个多样化和高质量的代币上对 DeepSeek-V3 进行预训练,然后是监督微调和强化学习阶段,以充分利用其功能。 综合评估表明,DeepSeek-V3 的性能优于其他开源模型,并实现了与领先的闭源模型相当的性能。 尽管性能出色,但 DeepSeek-V3 只需要 2.788M H800 GPU 小时即可进行完整训练。 此外,它的训练过程非常稳定。 在整个训练过程中,我们没有遇到任何无法恢复的损失峰值或执行任何回滚。
2. 模型概述
架构:创新的负载均衡策略和训练目标
- 除了 DeepSeek-V2 的高效架构之外,我们还开创了一种用于负载均衡的辅助无损策略,该策略可以最大限度地减少因鼓励负载均衡而引起的性能下降。
- 我们研究了多标记预测 (MTP) 目标,并证明它对模型性能有益。 它还可用于推理加速的推测解码。
训练前:迈向终极训练效率
- 我们设计了一个 FP8 混合精度训练框架,并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。
- 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了完全的计算-通信重叠。
这显著提高了我们的训练效率并降低了训练成本,使我们能够在不增加开销的情况下进一步扩大模型大小。 - 我们以仅 2.664M H800 GPU 小时的经济成本,在 14.8T 令牌上完成了 DeepSeek-V3 的预训练,生成了目前最强的开源基础模型。预训练后的后续训练阶段只需要 0.1M GPU 小时。
培训后:DeepSeek-R1 的知识提炼
- 我们引入了一种创新方法,将长链思维 (CoT) 模型的推理能力,特别是 DeepSeek R1 系列模型之一的推理能力提炼到标准 LLM 中,特别是 DeepSeek-V3。我们的 pipeline 将 R1 的验证和反射模式优雅地整合到 DeepSeek-V3 中,并显著提高了它的推理性能。同时,我们还保持对 DeepSeek-V3 的输出样式和长度的控制。
3. 模型下载
型 | #Total Params | #Activated Params | 上下文长度 | 下载 |
---|---|---|---|---|
DeepSeek-V3-基础 | 671B 系列 | 编号 37B | 128K | 🤗 拥抱脸 |
深度搜索-V3 | 671B 系列 | 编号 37B | 128K | 🤗 拥抱脸 |
注意
Hugging Face 上 DeepSeek-V3 模型的总大小为 685B,其中包括 671B 的主模型权重和 14B 的多标记预测 (MTP) 模块权重。
为了确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供了多种在本地运行模型的方法。有关分步指南,请查看第 6 节:How_to Run_Locally。
对于希望深入了解的开发人员,我们建议探索 README_WEIGHTS.md 以了解有关主模型权重和多标记预测 (MTP) 模块的详细信息。请注意,MTP 支持目前在社区内正在积极开发中,我们欢迎您的贡献和反馈。
4. 评估结果
基本模型
标准基准
基准 (度量) | # 镜头 | 深度搜索-V2 | Qwen2.5 72B | LLaMA3.1 405B | 深度搜索-V3 | |
---|---|---|---|---|---|---|
建筑 | - | 教育部 | 稠 | 稠 | 教育部 | |
# 激活的 Params | - | 21B | 72B 系列 | 405B 系列 | 编号 37B | |
# 总参数 | - | 编号 236B | 72B 系列 | 405B 系列 | 671B 系列 | |
英语 | 桩测试 (BPB) | - | 0.606 | 0.638 | 0.542 | 0.548 |
BBH (EM) | 3 镜头 | 78.8 | 79.8 | 82.9 | 87.5 | |
MMLU (Acc.) | 5 镜头 | 78.4 | 85.0 | 84.4 | 87.1 | |
MMLU-Redux (Acc.) | 5 镜头 | 75.6 | 83.2 | 81.3 | 86.2 | |
MMLU-Pro (附件) | 5 镜头 | 51.4 | 58.3 | 52.8 | 64.4 | |
DROP (F1) | 3 镜头 | 80.4 | 80.6 | 86.0 | 89.0 | |
ARC-Easy (累积) | 25 发 | 97.6 | 98.4 | 98.4 | 98.9 | |
ARC-Challenge (累积) | 25 发 | 92.2 | 94.5 | 95.3 | 95.3 | |
HellaSwag (累积) | 10 次拍摄 | 87.1 | 84.8 | 89.2 | 88.9 | |
PIQA (累积) | 0 次射击 | 83.9 | 82.6 | 85.9 | 84.7 | |