您的位置:首页 > 游戏 > 游戏 > 什么叫网络营销目标市场_武汉seo公司哪家好_网站建设找哪家公司好_百度推广怎么找客户

什么叫网络营销目标市场_武汉seo公司哪家好_网站建设找哪家公司好_百度推广怎么找客户

2024/12/27 23:11:02 来源:https://blog.csdn.net/ChaneMo/article/details/144700054  浏览:    关键词:什么叫网络营销目标市场_武汉seo公司哪家好_网站建设找哪家公司好_百度推广怎么找客户
什么叫网络营销目标市场_武汉seo公司哪家好_网站建设找哪家公司好_百度推广怎么找客户

一、摘要

        本文介绍2019年来自OpenAI的论文《Language Models are Unsupervised Multitask Learners》,也就是提出GPT2的论文。论文提出语言模型在无监督的情况下,通过大规模多样化数据集训练,能够执行多种自然语言处理任务,展现出零样本学习能力,在当时为LLM的发展提供了一个新方向。

264f065452824f64b7215f6803fa22d3.png

译文:

        自然语言处理任务,如问答、机器翻译、阅读理解和摘要,通常通过在任务特定的数据集上进行监督学习来解决。我们展示了当在一个包含数百万网页的新数据集WebText上进行训练时,语言模型开始在没有任何明确监督的情况下学习这些任务。当以文档加问题为条件时,语言模型生成的答案在CoQA数据集上达到了55的F1分数——在不使用127,000多个训练示例的情况下,匹配或超过了4个基线系统中的3个。语言模型的容量对于零样本任务迁移的成功至关重要,增加容量可以以对数线性方式提高各任务的性能。我们最大的模型GPT-2是一个具有15亿参数的Transformer,在零样本设置下,在8个测试的语言建模数据集中的7个上达到了最先进的结果,但仍然对WebText存在欠拟合。模型生成的样本反映了这些改进,并包含连贯的文本段落。这些发现表明了一条有前途的路径,即构建能够从自然发生的示例中学习执行任务的语言处理系统。

二、核心创新点

        与其说是创新点,倒不如说是改进点,如下:

1、扩大训练数据集

        作者指出,以往的研究大都在单一文本领域上去训练LLM,并认为使用网络爬虫来获取多样化且几乎无限量的文本非常有意义。由此,作者创建了一个新的爬虫工具,用于提取高质量文本。具体来说,这个爬虫只选取那些经过人类筛选的网页,例如抓取社交媒体平台Reddit上的数据。最终生成的数据集WebText包含了800多万个文档,大小在40G。

2、输入表示

        对于输入表示,采用结合字级和词级优点的字节对编码(BPE),防止 BPE 跨字符类别合并,添加空格例外以提高压缩效率,使模型能处理任意 Unicode 字符串。

3、模型架构调整

        GPT2模型的架构整体上与GPT一致,但是做了一些微小的改动。首先,层归一化模块被移动到每个子块的输入处,同时最后的自注意力block后面新增一个额外的层归一化模块。其次,GPT2还使用了一种考虑模型深度在残差路径上积累的改进初始化方法,具体来说,初始化时将残差层的权重按照%20%5Csqrt%7BN%7D的因子进行缩放,其中N是残差层的数量。另外,词汇表的规模扩大到了50257,上下文大小也从512个Token扩大到了1024个Token,batch_size也扩大到512。

c5801417ca674d7399c24b12925b2273.png

三、总结

        这篇论文证明了LLM在大规模多样化数据集上预训练后,能在无监督零样本设置下执行多种自然语言处理任务,如阅读理解、翻译、问答等,无需特定任务的监督训练或架构修改。而相比起GPT1,GPT2更多地是向我们展示了什么叫大力出奇迹,即把数据量、输入上下文长度等扩大,模型效果也能得到提升。

 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com