如果查看模型中的参数,最简单的方式就是在 HuggingFace 的主页上查看,例如,查看 Qwen2.5 0.5B 的参数量以及参数的详细信息,直接在Huggingface 搜索。
这个 494M 参数都包括什么?可以点击右边的详情按钮
我们来具体看一下 GPT2 Small 参数量是怎么算出来的,GPT2 Embedding 大小是 768,12 层 Decode Block。
- Embedding:50257 * 768,词库大小是 50257
- Position Embedding: 1024 * 768,上下文长度 1024 个 Token
- Input 到 Q、K、V,三个 Project Matrix:3 个 768 * 768 矩阵
- Attention Output: 注意力输入 Project Matrix:768 * 768
- FFN Hidden:768 * (768 * 4)
- FFN Output: (768 * 4) * 768
- 两个 Norm:(768 + 768) * 2
参数总计为 124 万。
总结
不同的 Transformer 模型的参数的算法不太一些样,如果使用的 GQA,KV Matrix 和 Q Matrix 维度不同,计算时需要查看 Model 的配置信息,在模型仓库 config.json 文件中。