您的位置:首页 > 科技 > IT业 > 纪梵希网站设计分析_微信开发者工具官方文档_网络营销的应用_互联网推广是什么工作内容

纪梵希网站设计分析_微信开发者工具官方文档_网络营销的应用_互联网推广是什么工作内容

2025/1/15 13:37:36 来源:https://blog.csdn.net/hawk2014bj/article/details/142789954  浏览:    关键词:纪梵希网站设计分析_微信开发者工具官方文档_网络营销的应用_互联网推广是什么工作内容
纪梵希网站设计分析_微信开发者工具官方文档_网络营销的应用_互联网推广是什么工作内容

如果查看模型中的参数,最简单的方式就是在 HuggingFace 的主页上查看,例如,查看 Qwen2.5 0.5B 的参数量以及参数的详细信息,直接在Huggingface 搜索。
在这里插入图片描述
这个 494M 参数都包括什么?可以点击右边的详情按钮
在这里插入图片描述
我们来具体看一下 GPT2 Small 参数量是怎么算出来的,GPT2 Embedding 大小是 768,12 层 Decode Block。

  1. Embedding:50257 * 768,词库大小是 50257
  2. Position Embedding: 1024 * 768,上下文长度 1024 个 Token
  3. Input 到 Q、K、V,三个 Project Matrix:3 个 768 * 768 矩阵
  4. Attention Output: 注意力输入 Project Matrix:768 * 768
  5. FFN Hidden:768 * (768 * 4)
  6. FFN Output: (768 * 4) * 768
  7. 两个 Norm:(768 + 768) * 2

参数总计为 124 万。
在这里插入图片描述

总结

不同的 Transformer 模型的参数的算法不太一些样,如果使用的 GQA,KV Matrix 和 Q Matrix 维度不同,计算时需要查看 Model 的配置信息,在模型仓库 config.json 文件中。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com