您的位置：首页 > 游戏 > 游戏 > 大模型llama结构技术点分享；transformer模型常见知识点nlp面经

大模型llama结构技术点分享；transformer模型常见知识点nlp面经

2025/1/10 6:20:18 来源：https://blog.csdn.net/weixin_42357472/article/details/140686219 浏览: 次关键词：大模型llama结构技术点分享；transformer模型常见知识点nlp面经

参考：https://www.zhihu.com/question/662354435/answer/3572364267

Llama1-3，数据tokens从1-2T到15T;使用了MHA（GQA缓存）；上下文长度从2-4-8K；应用了强化学习对其。

1、pretraining（(1) 初始预训练，(2) 长上下文预训练，以及 (3)
退火（Annealing））+posttraing（SFT+DPO）
2、合成数据应用
3、Norm函数:RMSNorm，Norm结构:Pre-Norm，Self Attention: Grouped Query Attention(GQA) ，Position编码:ROPE，FFN结构:SwiGLU

Norm函数:RMSNorm
Norm结构:Pre-Norm
Self Attention: Grouped Query Attention(GQA)Position编码:ROPE
FFN结构:SwiGLU

在这里插入图片描述

大模型面经：
https://docs.qq.com/doc/DSGtaUUpydFBEd2FC

在这里插入图片描述

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

热搜词

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！