您的位置:首页 > 财经 > 产业 > 猴哥影院在线电影观看_建筑施工合同完整版_免费开源代码网站_百度竞价登陆

猴哥影院在线电影观看_建筑施工合同完整版_免费开源代码网站_百度竞价登陆

2024/12/23 12:00:58 来源:https://blog.csdn.net/smartcat2010/article/details/144321754  浏览:    关键词:猴哥影院在线电影观看_建筑施工合同完整版_免费开源代码网站_百度竞价登陆
猴哥影院在线电影观看_建筑施工合同完整版_免费开源代码网站_百度竞价登陆

GPT-1:(0.117B参数量,0.8B words预训练数据)

动机:

在RNN和Transformer之间,选择了后者。

和《All your need is Attention》翻译模型的Encoder-Decoder架构相比,只保留Decoder,因此去掉了Cross-Attention层。没有使用sin、cos做位置编码,用的是可训练的位置编码。0.117B参数量。

预训练:

注意:是Embedding和最后一层分类层,参数共享的。原因:这个时期的模型参数小,Embedding参数量占的比重高,共享可以降低参数量。现在的模型参数大,Embedding占的比重小,都不再共享了。

微调(Fine Tune):

将上了特殊Token(Start、Extract、Delim),让模型感知到在做NLP任务,而不是在做句子生成。

Similarity任务,将句子1和句子2,用不同的顺序,做成2个样本,激活值相加,最后进Linear层去分类。

多选题任务,题目+选项,得到1个数值;每个选项都得到1个数值,这些数值做softmax;

Trick: 微调任务和预训练任务,同时进行训练。

训练数据:

Bert:

双向Encoder预训练;最后加1层线形层做下游任务微调。

效果碾压GPT-1:

GPT-2(1.542B参数量,40GB文字训练数据量)

动机:

下游任务,放弃特殊token,改用prompt:

模型变化:

训练变化:

效果:比不过FineTune模型。但发现了规律:随着参数量增大,效果仍可继续上升。

GPT-3: (175B参数量,300B token预训练数据量)

动机:

模型修改:

引入稀疏注意力机制(每个token只和前面的部分token进行attention计算,而不是前面全部token)

训练数据:

不同来源的数据,采样比例不一样。(质量差的数据,就少采样一些)

效果:超过了最好的Fine tune模型。

GPT-4:

效果:霸榜Top-1

Insight: 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com