您的位置:首页 > 科技 > IT业 > 安阳设计工厂_把名字设计成logo_站长工具爱站_重庆seo技术分享

安阳设计工厂_把名字设计成logo_站长工具爱站_重庆seo技术分享

2024/12/23 20:38:39 来源:https://blog.csdn.net/qq_43814415/article/details/144650302  浏览:    关键词:安阳设计工厂_把名字设计成logo_站长工具爱站_重庆seo技术分享
安阳设计工厂_把名字设计成logo_站长工具爱站_重庆seo技术分享

BERT还在更新!
因为上下文窗口限制,BERT只能处理512个token。
为了更长,可以抽取关键句子,或者修改位置编码

但现在,ModernBERT来了,使用了最新的技术架构,支持8192的context length。

架构

基于标准Transformer架构,添加了各项最新技术。

1.偏置项:只保留最后一个解码器线性层的偏置项。禁用layer norm中的偏置项。使得可以给线性层更大的参数量。
2.位置编码:由随机的可学习的位置编码转换为ROPE旋转位置编码。有利于扩展上下文窗口。
3.归一化:采用前置归一化,仍旧是标准的层归一化。在嵌入层后添加了一个层归一化,移除了第一个注意力层的第一个层归一化。这是为了防止重复。
4.激活函数:由RLU变为GeGLU。
5.注意力机制:每三层使用全局注意力,其余采用128个token的局部注意力。提高训练速度。
6.无填充方法:在训练和推理过程中去除填充令牌,将所有序列连接成一个序列进行处理。将小批量中的所有序列连接成一个单一序列。
7.Flash Attention。

8.层数:深且窄的语言模型在下游性能上优于较浅的对应模型,但代价是推理速度较慢。
base和large分别有22层和28层,总参数量分别为1.49亿和3.95亿。
base的隐藏层维度是768,large是1024.

9.分词器:采用BPE方法。
10.采用序列打包方法,避免高方差。

训练

1.训练任务:MLM任务,30%的掩码率。
2.优化器:StableAdamW优化器.
3.学习率调度:热身-稳定-衰减(WSD)方法。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com