您的位置:首页 > 娱乐 > 八卦 > 建设工程机械岗位操作证_国外优秀海报设计网站_企业网站大全_小红书新媒体营销案例分析

建设工程机械岗位操作证_国外优秀海报设计网站_企业网站大全_小红书新媒体营销案例分析

2024/12/23 16:32:26 来源:https://blog.csdn.net/qq_63585949/article/details/143665019  浏览:    关键词:建设工程机械岗位操作证_国外优秀海报设计网站_企业网站大全_小红书新媒体营销案例分析
建设工程机械岗位操作证_国外优秀海报设计网站_企业网站大全_小红书新媒体营销案例分析

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Parameter-Efficient Transfer Learning for NLP
作者: Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly
发表: ICML 2019
arXiv: https://arxiv.org/abs/1902.00751

基本信息

摘要

参数高效的NLP迁移学习对NLP中的大型预训练模型微调是一种有效的迁移机制。

然而,在存在许多下游任务的情况下,微调在参数上效率低下:每个任务都需要一个全新的模型。

作为替代方案,我们提出了带有适配器模块的迁移。

适配器模块产生一个紧凑且可扩展的模型;它们为每个任务仅添加少量可训练参数,并且可以添加新任务而无需重新访问之前的任务。

原始网络的参数保持不变,从而实现了高度的参数共享。

为了证明适配器的有效性,我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类任务中,包括GLUE基准。

适配器达到了接近最先进的性能,而每个任务仅添加少量参数。

在GLUE上,我们的性能与完全微调相差0.4%,每个任务仅添加3.6%的参数。

相比之下,微调为每个任务训练了100%的参数。

Trade-off between accuracy and number of trained taskspecific parameters, for adapter tuning and fine-tuning

Adapter tuning与全量微调两种微调方法微调效果随可训练参数量变化的比较。

Adapter tuning

Adapter tuning

在Transformer Layer的各个模块之间加入Adapter Layer。

Adapter Layer将特征由高维降至低维,经过非线性函数再从低维恢复到高维,并带有残差连接。

微调时冻结其他参数,只微调Adapter Layer。

实验

Results on GLUE test sets scored using the GLUE evaluation server. MRPC and QQP are evaluated using F1 score

Test accuracy for additional classification tasks

Accuracy versus the number of trained parameters, aggregated across tasks

Validation set accuracy versus number of trained parameters for three methods

Validation accuracy versus the number of trained parameters for SQuAD v1.1

Figure 6

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com