DeepSeekv3学习笔记
- 概述
- 网络架构
- 参考
概述
DeepSeekv3参数量6710以个,但在活跃是每个token的参数仅仅为370亿个,在14.8万亿个token的训练集上训练(100万个token约为75万词),预训练阶段仅需266.8万H800个GPU小时,后续训练阶段也仅需10万GPU小时。【约2个月完成训练,550万美元】
传统的Transformer模型(BERT、GPT等)在处理长序列、多模态数据或推理复杂任务时计算效率低,上下文捕捉不足【因为它们在当输入的Prompt非常长时会在中途随机遗忘一些内容】
DeekSeekv3基于传统的Transformer架构,通过引入新的注意力机制(MLT多头潜在注意力机制)、MoE(混合专家系统)、旋转位置编码(Complex Rotary)、改进的MLP、改进的线性变换方法(Rotary Linear),提升了模型的推理性能、速度、泛化能力。(整合了One系列的推理能力)其中,MoE架构是它高效率、高性能的关键。
复杂旋转机制和改进的线性变换方法、改进的MLP则可以更好捕捉序列中的位置信息,更好的对上下文建模。
网络架构
参考
Hugging Face 模型镜像/DeepSeek-V3
【架构解析】深入浅析DeepSeek-V3的技术架构
DeepSeek-V3技术报告解读
MOE架构的详细解析
深度学习架构:MOE架构
手写模型
[Deepseekv3]
DeepSeekv3 AI助手
VScode+DeepSeek+cline to build anything