您的位置:首页 > 房产 > 建筑 > 百度网址大全怎么设为主页_定制开发一个app需要多少钱_学校招生网络营销方案_百度网盘搜索引擎官方入口

百度网址大全怎么设为主页_定制开发一个app需要多少钱_学校招生网络营销方案_百度网盘搜索引擎官方入口

2025/1/8 2:31:03 来源:https://blog.csdn.net/weixin_43008312/article/details/144950582  浏览:    关键词:百度网址大全怎么设为主页_定制开发一个app需要多少钱_学校招生网络营销方案_百度网盘搜索引擎官方入口
百度网址大全怎么设为主页_定制开发一个app需要多少钱_学校招生网络营销方案_百度网盘搜索引擎官方入口

DeepSeekv3学习笔记

  • 概述
  • 网络架构
  • 参考

在这里插入图片描述

概述

DeepSeekv3参数量6710以个,但在活跃是每个token的参数仅仅为370亿个,在14.8万亿个token的训练集上训练(100万个token约为75万词),预训练阶段仅需266.8万H800个GPU小时,后续训练阶段也仅需10万GPU小时。【约2个月完成训练,550万美元】

传统的Transformer模型(BERT、GPT等)在处理长序列、多模态数据或推理复杂任务时计算效率低,上下文捕捉不足【因为它们在当输入的Prompt非常长时会在中途随机遗忘一些内容】

DeekSeekv3基于传统的Transformer架构,通过引入新的注意力机制(MLT多头潜在注意力机制)、MoE(混合专家系统)、旋转位置编码(Complex Rotary)、改进的MLP、改进的线性变换方法(Rotary Linear),提升了模型的推理性能、速度、泛化能力。(整合了One系列的推理能力)其中,MoE架构是它高效率、高性能的关键。

复杂旋转机制和改进的线性变换方法、改进的MLP则可以更好捕捉序列中的位置信息,更好的对上下文建模。

网络架构

请添加图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考

Hugging Face 模型镜像/DeepSeek-V3
【架构解析】深入浅析DeepSeek-V3的技术架构
DeepSeek-V3技术报告解读
MOE架构的详细解析
深度学习架构:MOE架构
手写模型
[Deepseekv3]
DeepSeekv3 AI助手

VScode+DeepSeek+cline to build anything

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com