百度网址大全怎么设为主页_定制开发一个app需要多少钱_学校招生网络营销方案_百度网盘搜索引擎官方入口

2025/1/8 2:31:03 来源：https://blog.csdn.net/weixin_43008312/article/details/144950582 浏览: 次关键词：百度网址大全怎么设为主页_定制开发一个app需要多少钱_学校招生网络营销方案_百度网盘搜索引擎官方入口

DeepSeekv3学习笔记

概述
网络架构
参考

概述

DeepSeekv3参数量6710以个，但在活跃是每个token的参数仅仅为370亿个，在14.8万亿个token的训练集上训练（100万个token约为75万词），预训练阶段仅需266.8万H800个GPU小时，后续训练阶段也仅需10万GPU小时。【约2个月完成训练，550万美元】

传统的Transformer模型（BERT、GPT等）在处理长序列、多模态数据或推理复杂任务时计算效率低，上下文捕捉不足【因为它们在当输入的Prompt非常长时会在中途随机遗忘一些内容】

DeekSeekv3基于传统的Transformer架构，通过引入新的注意力机制（MLT多头潜在注意力机制）、MoE（混合专家系统）、旋转位置编码（Complex Rotary）、改进的MLP、改进的线性变换方法（Rotary Linear），提升了模型的推理性能、速度、泛化能力。（整合了One系列的推理能力）其中，MoE架构是它高效率、高性能的关键。

复杂旋转机制和改进的线性变换方法、改进的MLP则可以更好捕捉序列中的位置信息，更好的对上下文建模。

网络架构

请添加图片描述
在这里插入图片描述

参考

Hugging Face 模型镜像/DeepSeek-V3
【架构解析】深入浅析DeepSeek-V3的技术架构
DeepSeek-V3技术报告解读
MOE架构的详细解析
深度学习架构：MOE架构
手写模型
[Deepseekv3]
DeepSeekv3 AI助手

VScode+DeepSeek+cline to build anything

百度网址大全怎么设为主页_定制开发一个app需要多少钱_学校招生网络营销方案_百度网盘搜索引擎官方入口

DeepSeekv3学习笔记

概述

网络架构

参考

最新新闻

热搜词