您的位置:首页 > 房产 > 家装 > 品牌形象设计毕业设计_html网页制作基础教程_如何在百度上推广业务_武汉百度推广多少钱

品牌形象设计毕业设计_html网页制作基础教程_如何在百度上推广业务_武汉百度推广多少钱

2024/12/23 9:50:24 来源:https://blog.csdn.net/qq_44144025/article/details/144426594  浏览:    关键词:品牌形象设计毕业设计_html网页制作基础教程_如何在百度上推广业务_武汉百度推广多少钱
品牌形象设计毕业设计_html网页制作基础教程_如何在百度上推广业务_武汉百度推广多少钱

预训练大模型只能提供较好的初始化,面对纷繁复杂的NLP任务场景,需要进一步的微调训练。

T5
  • 110亿参数
  • 从训练“分类层”转为 训练 “encoder-decoder”
  • sequence to sequence 序列到序列的训练,输出token而不是分类
  • demonstration 例证
GPT3
  • 1750亿参数
    模型太大,单机根本无法微调

  • 没有任何参数被微调,通过prompt方式使用

  • Descriptions(Prompts) + Few-shot examples to generate tokens
    in-context leaning :大模型见过几个examples再输出

  • 优点
    更好的语言理解和语言生成效果
    更大的容积去学习新的知识

Fine tuning 的改变

以前的方法微调要改变全部模型的参数,在GPT3上是不现实的,在110b其实就很难了
每个任务对应一个100多亿的模型,100个任务就有100个模型,从存储角度来讲也不现实

高效的微调大模型 Effective Model Adaptation

从task 和 data的角度出发

prompt-learning
给模型加入一些额外的上下文 trigger出一些token
让输入数据变得更具体

从优化的角度出发

delta Tuning
用小参数去驱动大参数

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com