当我们聊到人工智能特别是语言模型时,大家脑海中可能浮现的都是庞大的计算能力、高能耗的服务器群。然而,最近有一篇有趣的论文《Addition Is All You Need for Energy-Efficient Language Models》(加法才是低能耗语言模型的关键)却颠覆了我们对语言模型的传统认知。那么,它到底在说什么?为什么说只靠加法就能大幅降低能耗?今天我们就来好好聊聊这个话题。
加法能省电?没搞错吧?
一提到“加法”,大家是不是都有点怀疑?我们都知道,现有的大型语言模型(比如GPT-4)靠的是复杂的矩阵运算、层层叠加的神经网络,这些操作背后往往消耗了大量的能量资源。可这篇论文告诉我们,换一种思路,用加法替代某些繁杂的计算,可以有效降低能耗。
听起来有点玄对吧?其实,背后的道理很简单。相比传统的矩阵乘法,论文提出的这种“加法”模型架构(也叫做线性层模型)大幅减少了计算量。换句话说,它不再需要对每个输入都进行复杂的乘法运算,只需要对信息进行加法累加,从而降低了整体的计算成本和能量消耗。
从复杂到简单:为什么加法有效?
那问题来了,为什么加法这种看似简单的运算,反而在语言模型中行得通呢?论文的核心观点在于:在处理自然语言任务时