您的位置:首页 > 汽车 > 时评 > 个人写真照_番禺建设网站公司_免费seo工具_无锡seo网络推广

个人写真照_番禺建设网站公司_免费seo工具_无锡seo网络推广

2024/12/29 6:41:31 来源:https://blog.csdn.net/weixin_73453526/article/details/142369395  浏览:    关键词:个人写真照_番禺建设网站公司_免费seo工具_无锡seo网络推广
个人写真照_番禺建设网站公司_免费seo工具_无锡seo网络推广

在这里插入图片描述

1. 输入部分

  • Text:原始输入文本,模型需要处理的自然语言数据。
  • Tokenizer:分词器,将输入文本转换为词汇表中的索引(ID),便于后续处理。
  • Input_ids:经过分词处理后的ID序列,作为模型的输入。

2. 嵌入层

  • Embedding:将输入的ID转换为高维向量(嵌入向量),使得模型能够理解词汇之间的语义关系。

3. 主干结构(Qwen2)

  • Qwen2:模型的核心部分,包含多个层(Layers),用于处理输入数据并提取特征。
  • Hidden_states:在每一层中生成的隐藏状态,表示模型对输入的理解和特征提取。

4. 层(Layers)

  • Layers1, Layers2, …, Layersn:表示模型中的多个层,每一层都对输入进行处理,提取更高层次的特征。

5. 归一化层

  • RMSNorm:一种归一化方法,用于稳定训练过程,减少梯度消失或爆炸的风险。

6. 解码层(Decoder layer)

  • Hidden_states:解码过程中生成的隐藏状态,作为后续计算的输入。
  • residual:残差连接,将输入与输出相加,帮助模型更好地学习。

7. 注意力机制(Attention)

  • Attention:核心机制,用于计算输入序列中各个部分之间的关系。
  • Query、Key、Value:注意力机制的三个组成部分,分别用于计算注意力权重。
  • Apply_rotary_pos_emb:应用旋转位置嵌入,增强模型对序列中位置信息的理解。
  • Repeat_kv:重复Key和Value,以便在计算注意力时使用。
  • Dot_attn:计算Query与Key的点积,得到注意力分数。
  • Attention_weight:经过Softmax处理后的注意力权重,用于加权Value。
  • Softmax:将注意力分数转换为概率分布,确保所有权重之和为1。
  • Matmul:矩阵乘法操作,将注意力权重与Value相乘,得到最终的注意力输出。

8. 多层感知机(MLP)

  • MLP:多层感知机,用于进一步处理隐藏状态。
  • HS:隐藏状态,作为MLP的输入。
  • Act:激活函数,增加模型的非线性能力。
  • Linear:线性变换,通常用于调整维度或进行特征提取。

9. 输出层

  • Linear:最终的线性变换,将处理后的数据映射到输出空间。
  • Loss:计算损失,用于评估模型的性能。
  • Output:模型的最终输出,通常是预测结果或生成的文本。

总结

整个结构图展示了一个复杂的深度学习模型,强调了从输入文本到最终输出的各个处理步骤,包括分词、嵌入、特征提取、注意力机制和输出生成。每个部分都在模型的学习和推理过程中发挥着重要作用。

注:以上内容部分来自ChatGPT的图像分析,可能有误

https://github.com/huggingface/transformers


参考文献:

从零手搓大模型(一)

Tiny Universe - Llama3架构

LLama3模型讲解

tiny-universe01-Qwen-blog学习笔记

Tiny-universe组队学习task1学习笔记

LLama3模型讲解

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com