您的位置:首页 > 房产 > 建筑 > 论文略读:Learning and Forgetting Unsafe Examples in Large Language Models

论文略读:Learning and Forgetting Unsafe Examples in Large Language Models

2024/12/23 10:36:06 来源:https://blog.csdn.net/qq_40206371/article/details/140237344  浏览:    关键词:论文略读:Learning and Forgetting Unsafe Examples in Large Language Models
  • 随着发布给公众的大语言模型(LLMs)数量的增加,迫切需要了解这些模型从第三方定制的微调数据中学习的安全性影响。
  • 论文研究了在包含不安全内容的噪声定制数据上微调的LLMs的行为,这些数据集包含偏见、毒性和有害性
    • 发现虽然对齐的LLMs可以轻松学习这些不安全内容,但当随后在更安全的内容上进行微调时,它们相对于其他示例更容易遗忘这些内容
  • 受到遗忘差异的启发,作者引入了“ForgetFilter”算法,该算法根据模型对数据的遗忘信号强度过滤不安全的数据。
    • 论文证明ForgetFilter算法确保了在定制微调中的安全性,而不损害下游任务性能,这与顺序安全微调不同。
    • 在抑制LLMs在定制微调过程中吸收不安全内容方面,ForgetFilter优于替代策略,如重播和道德自我纠正,例如毒性评分中不应用任何安全措施的下降了75%,比使用自我纠正下降了62%。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com