您的位置：首页 > 科技 > IT业 > 纪梵希网站设计分析_微信开发者工具官方文档_网络营销的应用_互联网推广是什么工作内容

纪梵希网站设计分析_微信开发者工具官方文档_网络营销的应用_互联网推广是什么工作内容

2025/4/19 16:36:23 来源：https://blog.csdn.net/hawk2014bj/article/details/142789954 浏览: 次关键词：纪梵希网站设计分析_微信开发者工具官方文档_网络营销的应用_互联网推广是什么工作内容

如果查看模型中的参数，最简单的方式就是在 HuggingFace 的主页上查看，例如，查看 Qwen2.5 0.5B 的参数量以及参数的详细信息，直接在Huggingface 搜索。
在这里插入图片描述
这个 494M 参数都包括什么？可以点击右边的详情按钮

我们来具体看一下 GPT2 Small 参数量是怎么算出来的，GPT2 Embedding 大小是 768,12 层 Decode Block。

Embedding：50257 * 768，词库大小是 50257
Position Embedding： 1024 * 768，上下文长度 1024 个 Token
Input 到 Q、K、V，三个 Project Matrix：3 个 768 * 768 矩阵
Attention Output：注意力输入 Project Matrix：768 * 768
FFN Hidden：768 * (768 * 4)
FFN Output: (768 * 4) * 768
两个 Norm：（768 + 768） * 2

参数总计为 124 万。
在这里插入图片描述

总结

不同的 Transformer 模型的参数的算法不太一些样，如果使用的 GQA，KV Matrix 和 Q Matrix 维度不同，计算时需要查看 Model 的配置信息，在模型仓库 config.json 文件中。

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

热搜词

【C语言】深入理解指针（三）：C语言中的高级指针应用住房租赁管理系统推进线上签约与租金监管一体化 Ajax、vue-cli、element 快速幂,素数筛 2022年湖北省文化产业示范园（基地）发展专项资金申报条件以及奖励补贴情况！均线、MACD、KDJ、RSI，那这4个指标，在什么情况下是最值得购买的股票？

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！

纪梵希网站设计分析_微信开发者工具官方文档_网络营销的应用_互联网推广是什么工作内容

总结

最新新闻

热搜词