游戏网页版在线玩入口_公司外贸网站建设_小吃培训2000元学6项_今天合肥刚刚发生的重大新闻

2025/2/28 13:36:30 来源：https://blog.csdn.net/buyaotutou/article/details/142693004 浏览: 次关键词：游戏网页版在线玩入口_公司外贸网站建设_小吃培训2000元学6项_今天合肥刚刚发生的重大新闻

系列文章目录

之前是使用预训练好的模型来抽取词、句子的特征，例如 word2vec 或语言模型这种非深度学习的模型
一般抽完特征后，在做迁移学习时不更新预训练好的模型
迁移学习前做好的工作所抽取的特征是个比较底层的特征，一般当作embedding用，做自己的工作时需要构建新的网络来抓取新任务需要的信息。之前的工作，比如Word2vec忽略了时序信息，语言模型只看了一个方向，RNN不好处理特别长的序列，所以他也就看了很短的一段东西而已。

在这里插入图片描述

想研发相似于CV方面的，基于微调的NLP模型，除了输出层，其他层的参数我是可以复用的，我可以挪到其他任务中去。
预训练的模型抽取了足够多的信息
新的任务只需要增加一个简单的输出层

Bert从结构上来讲就是一个只保留了编码器的Transformer，创新很简单，后面在输入和 $L oss$ 上还有创新。
两个版本：

Base:#blocks=12,hidden size=768,#heads = 12
#parameters=110M 参数相比较Transformer大很多，模型深很多。
Large:#blocks=24, hidden size= 1024,#heads = 16
#parameter=340M

在大规模数据上训练>3B 词

之前Transformer是比如说把一个句子和他的翻译当作数据和标签进行训练，在encoder中放入数据，decoder中放入标签。现在bert只有encoder，怎么办？
在这里插入图片描述

这个<CLS>用来表示句子开头，<sep>表示这个句子结束，后面是下一个句子，所以可以输入多个句子。但只是这样对Transformer不太好区分哪几个词是一个句子，所以加了Segment Embeddings，通过不同标志来标记句子。最上面是一个可以学的Position Embedddings。