您的位置:首页 > 健康 > 美食 > 公众号开发中心_页面跳转页面紧急通知_seo顾问服务深圳_国外服务器免费ip地址

公众号开发中心_页面跳转页面紧急通知_seo顾问服务深圳_国外服务器免费ip地址

2024/12/22 17:34:28 来源:https://blog.csdn.net/weixin_40455124/article/details/144472950  浏览:    关键词:公众号开发中心_页面跳转页面紧急通知_seo顾问服务深圳_国外服务器免费ip地址
公众号开发中心_页面跳转页面紧急通知_seo顾问服务深圳_国外服务器免费ip地址

在这里插入图片描述

1 自然语言处理

1.1 NLP 是语言学和机器学习交叉领域,专注于理解与人类语言相关的一切。 NLP 任务的目标不仅是单独理解单个单词,而且是能够理解这些单词的上下文。
1.1.1 对整个句子进行分类: 获取评论的情绪,检测电子邮件是否为垃圾邮件,确定句子在语法上是否正确或两个句子在逻辑上是否相关
1.1.2 对句子中的每个词进行分类: 识别句子的语法成分(名词、动词、形容词)或命名实体(人、地点、组织)
1.1.3 生成文本内容: 用自动生成的文本完成提示,用屏蔽词填充文本中的空白
1.1.4 从文本中提取答案: 给定问题和上下文,根据上下文中提供的信息提取问题的答案
1.1.5 从输入文本生成新句子: 将文本翻译成另一种语言,总结文本
1.2 为什么具有挑战性?

2 Transformers能做什么?

2.1 翻译
2.2 文本摘要
2.3 问答系统
2.4 命名实体识别
命名实体识别 (NER) 是一项任务,其中模型必须找到输入文本的哪些部分对应于诸如人员、位置或组织之类的实体
2.5 Mask filling
2.6 文本生成
2.7 零样本分类
它允许您直接指定用于分类的标签,因此您不必依赖预训练模型的标签
2.8 语义和情感分析,sentiment-analysis

3 Transformers 是如何工作的?

3.1 Transformers是由一个团队领导的(非常大的)模型项目,
3.2 共享语言模型至关重要:共享经过训练的权重,当遇见新的需求时在预训练的权重之上进行微调,可以降低训练模型训练的算力和时间消耗,降低全球的总体计算成本和碳排放。
3.3 Transfer Learning
-迁移学习
3.3.1 Pretrain-预训练
预训练是训练模型前的一个操作:随机初始化权重,在没有任何先验知识的情况下开始训练。一般也说模型训练
3.3.2 Fine-tuned微调

  • 微调是在模型经过预训练后完成的训练
    预训练模型已经在与微调数据集有一些相似之处的数据集上进行了训练。因此,微调过程能够利用模型在预训练期间获得的知识(例如,对于NLP问题,预训练模型将对您在任务中使用的语言有某种统计规律上的理解)。
  • 由于预训练模型已经在大量数据上进行了训练,因此微调需要更少的数据来获得不错的结果。 出于同样的原因,获得好结果所需的时间和资源要少得多
  • 注意也是训练

3.4 一般的体系结构
3.4.1 Encoder (左侧): 编码器接收输入并构建其表示(其特征)。这意味着对模型进行了优化,以从输入中获得理解
3.4.2 Decoder (右侧): 解码器使用编码器的表示(特征)以及其他输入来生成目标序列。这意味着该模型已针对生成输出进行了优化
3.4.3 Attention layers
Transformer模型的一个关键特性是注意力层
介绍Transformer架构的文章的标题是“注意力就是你所需要的”! 这一层将告诉模型在处理每个单词的表示时,要特别重视您传递给它的句子中的某些单词(并且或多或少地忽略其他单词)

3.5 架构与参数
3.5.1 架构: 这是模型的骨架 — 每个层的定义以及模型中发生的每个操作。
3.5.2 Checkpoints: 这些是将在给架构中结构中加载的权重。
3.5.3 模型: 这是一个笼统的术语,没有“架构”或“参数”那么精确:它可以指两者。
3.5.4 架构是用于构建模型的一系列数学函数,其权重是这些函数参数。

4 “编码器”模型

4.1 “编码器”模型指仅使用编码器的Transformer模型
4.2 在每个阶段,注意力层都可以获取初始句子中的所有单词。这些模型通常具有“双向”注意力,被称为自编码模型
4.2.1 head层
一个附加组件,通常由一个或几个层组成,用于将Transformer的预测转换为特定于任务的输出
自注意力层确实包含注意力“Head”层
4.3 典型模型
4.3.1 ALBERT
ALBERT模型是在BERT模型的基础上进行改进的。它设计了参数减少的方法,用来降低内存消耗,同时加快BERT的训练速度。同时使用了self-supervised loss(自监督损失函数)关注构建句子中的内在连贯性(coherence )
4.3.2 BERT
BERT全称是Bidirectional Encoder Representations from Transformers,它通过连接从左到右和从右到左的文本,设计了一个预处理的深度双向表达模型。在fine-tuned阶段,只需要增加简单的输出层,就可以在BERT模型基础上达到SOTA的效果。
4.3.3 DistilBERT
Bert是12层transformer encode,Distilled BERT是6层transformer encode,Distilled BERT是没有进行自己的预训练,而是将bert的部分参数直接加载到Distilled BERT结构中作为初始化。
Distill的意思是蒸馏
DistilBERT的参数大约只有BERT的40%,而速度快了60%,并且保持了一定精度
4.3.4 ELECTRA
小模型 https://zhuanlan.zhihu.com/p/118135466
可以利用这个框架,自己训练一个预训练模型,单个GPU就可以训练得到一个小的语言模型,然后在特定的领域可以得到更优的结果,然后再在这个领域下进行特定任务的finetuning。
使用小的ELECTRA模型,在不能使用GPU的场景,或者性能要求高的场景,可以得到好的结果
ELECTRA的效果在多分类上不如Roberta,可能与预训练时采用的是二分类任务有关
4.3.5 RoBERTa
RoBERTa基本没有什么太大创新,主要是在BERT基础上做了几点调整: 1)训练时间更长,batch size更大,训练数据更多; 2)移除了next predict loss; 3)训练序列更长; 4)动态调整Masking机制。 5) Byte level BPE RoBERTa is trained with dynamic masking

5 “解码器”模型

5.1 “解码器”模型通常指仅使用解码器的Transformer模型
5.2 典型
5.2.1 CTRL
CTRL(Conditional Transformer Language Model),对标GPT-2,可以更好的控制文章的内容,生成有价值的文本,且无需进一步训练就可以解决特定领域的具体问题。CTRL模型的最大优势是在生成文本时可指定文章的类型,同一模型可以写作不同风格的文章,可以指定文章的领域、风格、主题、时间、实体,实体间的关系,以及任务相关的行为等等
5.2.2 GPT
GPT是一种Auto-Regressive(自回归)的语言模型。它也可以看作是Transformer model的Decoder部分,它的优化目标就是标准的语言模型目标:序列中所有token的联合概率。GPT采用的是自然序列中的从左到右(或者从右到左)的因式分解。
5.2.3 GPT-2
Generative Pre-trained Transformer(GPT)系列是由OpenAI提出的非常强大的预训练语言模型,这一系列的模型可以在非常复杂的NLP任务中取得非常惊艳的效果,例如文章生成,代码生成,机器翻译,Q&A等,
5.2.4 Transformer XL
片段级递归机制为了解决编码长距离依赖和上下文碎片化,相对位置编码机制为了实现片段级递归机制而提出,解决可能出现的时序混淆问题
特点,相对transformer

  • 提出片段级递归机制(segment-level recurrence mechanism),引入一个记忆(memory)模块(类似于cache或cell),循环用来建模片段之间的联系。
  • 使得长距离依赖的建模成为可能; 使得片段之间产生交互,解决上下文碎片化问题。 提出相对位置编码机制(relative position
  • embedding scheme),代替绝对位置编码。 在memory的循环计算过程中,避免时序混淆【见model部分】,位置编码可重用

6 编码器-解码器模型-序列到序列模型

6.1 在每个阶段,编码器的注意力层可以访问初始句子中的所有单词,而解码器的注意力层只能访问位于输入中将要预测单词前面的单词
6.2 典型
6.2.1 BART
BART模型就是使用Transformer模型整体结构的预训练语言模型
BART模型在预训练时,首先使用多种噪声对原始文本进行破坏,然后通过seq2seq模型重建原始文本。
6.2.2 mBART
mBART-一个使用BART目标在大规模单语言语料库上预训练的seq2seq降噪自编码(Lewis等人,2019)。mBART是第一个通过对多种语言的完整文本进行降噪来预训练一个完整的seq2seq模型的方法
6.2.3 Marian
一个翻译模型框架,使用与 BART 相同的模型
6.2.4 T5
T5希望提出一个统一的模型框架,将各种NLP任务都视为Text-to-Text任务,也就是输入为Text,输出也为Text的任务
T5(Text-to-Text Transfer Transformer)模型将翻译、分类、回归、摘要生成等任务都统一转成Text-to-Text任务,从而使得这些任务在训练(pre-train和fine-tune)时能够使用相同的目标函数,在测试时也能使用相同的解码过程。

7 偏见和局限性

7.1 最大的一个问题是,为了对大量数据进行预训练,研究人员通常会搜集所有他们能找到的内容,中间可能夹带一些意识形态或者价值观的刻板印象
7.2 使用的原始模型的时候,很容易生成性别歧视、种族主义或恐同内容。这种固有偏见不会随着微调模型而使消失
7.3 偏见来源
7.3.1 这个模型是一个预训练模型的微调版本,它从中继承了预训练模型的偏见。
7.3.2 用于训练模型的数据是有偏见的。
7.3.3 模型优化的指标是有偏见的。

8 总结

在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com