您的位置:首页 > 财经 > 产业 > seo 的作用和意义_html模板代码免费下载_网络宣传_yandere搜索引擎入口

seo 的作用和意义_html模板代码免费下载_网络宣传_yandere搜索引擎入口

2025/1/7 21:55:28 来源:https://blog.csdn.net/qq_40206371/article/details/144805119  浏览:    关键词:seo 的作用和意义_html模板代码免费下载_网络宣传_yandere搜索引擎入口
seo 的作用和意义_html模板代码免费下载_网络宣传_yandere搜索引擎入口

1 moe介绍

混合专家模型主要由两个关键部分组成

  • 稀疏MoE 层
    • 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层
    • MoE 层包含若干“专家”,每个专家本身是一个独立的神经网络。
      • 通常是参数更少的前馈网络 (FFN)
      • 甚至可以是 MoE 层本身,从而形成层级式的 MoE 结构
  • 门控网络(路由)
    • ​​​​​​​用于决定哪些令牌 (token) 被发送到哪个专家

 特点 

  • 与稠密模型相比, 预训练速度更快
    • 在相同的计算预算条件下,可以显著扩大数据集的规模
  • 与具有相同参数数量的模型相比,具有更快的 推理速度
    • ​​​​​​​推理阶段只使用moe的一部分,有些参数是用不上的
  • 在 微调方面存在诸多挑战
    • ​​​​​​​​​​​​​​在微调阶段往往面临泛化能力不足的问题,长期以来易于引发过拟合现象
  • 令牌存在负载均衡的挑战
    • 在训练过程中,门控网络往往倾向于主要激活相同的几个专家。
      • 这种情况可能会自我加强,因为受欢迎的专家训练得更快,因此它们更容易被选择。
    • ——>解决方法有:
      • 引入辅助损失,旨在鼓励给予所有专家相同的重要性
      • 给每个专家处理令牌的阈值

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com