您的位置:首页 > 汽车 > 时评 > 品牌vi形象设计公司_开平网站开发_网页设计与制作项目教程_google排名

品牌vi形象设计公司_开平网站开发_网页设计与制作项目教程_google排名

2024/11/16 12:28:42 来源:https://blog.csdn.net/zuiyishihefang/article/details/143197605  浏览:    关键词:品牌vi形象设计公司_开平网站开发_网页设计与制作项目教程_google排名
品牌vi形象设计公司_开平网站开发_网页设计与制作项目教程_google排名

2a7261dc97a27829c3b888a3643019e4.png

文章信息

350dfd795294938c520352750b5e9cb7.png

     论文题目为《Spatial-Temporal Large Language Model for Traffic Prediction》,文章来自ICLR 2024,是一篇交通预测领域论文,文中提出了一种新颖的空间-时间大型语言模型(ST-LLM)用于交通预测,它将位置上的时间步长定义为一个token,并通过空间-时间嵌入层对每个token进行嵌入。文中将这些token的空间-时间嵌入均匀地融合,并调整了LLM以捕获全局空间-时间依赖关系。本文通过在大量真实交通数据集上进行实验,实验结果表明,本文的交通预测模型取得了良好的效果,展示了本文的ST-LLM在各种设置下取得的卓越性能。此外,少样本和零样本预测结果突显了ST-LLM在域内和跨域知识转移方面的能力。

f4d02360bfd06c986a786ba78b983724.png

摘要‍‍‍‍

c77ecc97b0b527206032b1b56fa36934.png

      交通预测是智能交通系统的重要组成部分,它努力使用历史数据以预测特定位置的未来交通特征。虽然现有的交通预测模型往往强调发展复杂的神经网络结构,其精度没有得到提高。最近,大型语言模型表现出色时间序列分析能力。与现有模型不同,LLM主要通过参数扩展和扩展预训练来实现,同时保持其基本结构。受这些发展的启发,我们提出了一种时空用于交通预测的大型语言模型(ST-LLM)。在ST-LLM中,我们将每个位置的时间步长定义为token,设计一个时空嵌入来学习空间位置以及这些token的全局时间模式。此外,我们通过融合卷积将这些嵌入整合到每个嵌入中用于统一时空表示的token。此外,我们创新了一种部分冻结的注意力策略,以适应LLM捕捉流量的全局时空依赖关系。我们在真实交通数据集上进行综合实验,实验结果表明ST-LLM是一种强大的模型,其表现优于最先进的模型。值得注意的是:ST-LLM在小样本和零样本两种情况下也表现出强劲的性能。

c78af89b2bd6f76a3f74bff9b84c1394.png

贡献

314ae788c0b56b1cc1ef09f3ee61a9ea.png

(1)本文提出了一种用于交通预测的时空大语言模型(ST-LLM),该模型将一个位置上的时间步定义为token,并通过时空嵌入层嵌入每个标记。本文均匀地研究这些标记的时空嵌入,并适应llm以捕获全局的时空依赖性。

(2)在LLM中提出了一种新的策略,称为部分冻结注意力,以增强交通预测中的模型。通过部分冻结多头注意力,ST-LLM适于捕获不同流量预测任务的令牌之间的全局时空依赖关系。

(3)在真实交通数据集上进行了大量的实验,以显示我们的ST-LLM在各种设置下取得的优越性能。此外,少样本和零样本的预测结果展示了ST-LLM进行域内和域间知识转移的能力。

1f208dcaa42326f493f4ad39b48e420f.png

问题定义

a8911e4fcf7d83b7785eef71553b164e.png

定义1(交通特征):本文将交通数据表示为张量38c56fa6287f97330dfaf83b457e7eda.png,其中T是时间步长数,N是站点数量,C是特征。例如,C=1 表示交通流量的进出流量。

定义2(交通预测):考虑到历史P个时间步长的交通量2828d95dcf869756de7f11aa908b6f70.png,目标是学习一个参数为θ的函数f(·) 以预测后面S个时间步的流量d2ecb70f86bebf97b1c8b24dc6159e55.png。如下面公式所示:

dcf6c9901ccd7eaedba350630a4557e3.png

1fc3895566c5236d93a47a3af6d4f5d1.png

方法

a9293041cbc6c240fdbec1d04a4eeb2f.png

5.1 概况

         如图所示为时空大语言模型(ST-LLM)的框架概况,时空大语言模型(ST-LLM)框架集成了时空嵌入层、融合卷积层、LLM层和回归卷积层。开始,历史交通数据表示为XP,其中包含N个空间站点的标记。XP通过时空嵌入层进行处理,从中提取历史P时间步长、空间嵌入和时间嵌入的标记嵌入,分别为187a17bd6d5008d20be1c4d4e06174bd.png08aaa51dfcbd5b8110f7fdda3e64e7ab.png5de87e3f516ccfc1015294bbed364840.png。然后通过一个融合卷积将三个嵌入整合为38d979edae895f3d82549193bcbde934.png。随后,EF被输入到一个包含L + U层的PFA LLM中,在那里,多头注意力机制和前馈层在前F层中被冻结以保存预先训练好的知识,对最后U层的多头注意层进行解冻结,以增强模型对捕获时空依赖关系能力。最后,通过回归卷积层预测未来的流量数据。

61d732ec9e2b7f8010aa57d6341c4811.png

5.2 时空嵌入与融合层

       本文的目标是修改已经训练过的交通预测任务的llm。将每个交通数据位置上的时间步长定义为token。时空嵌入层将token转换为与llm对齐的时空表示。这些表示包括空间相关性、周模式、日模式和token信息。‍

5.2.1 token嵌入

       本文通过点态卷积嵌入token,其中输入数据XP被转换为嵌入的c8603973fe19d43c0db3f09e40cce3b5.png

2eb85305567aab6222e1164acd9298ff.png

       其中,EP表示token嵌入。PConv表示使用核大小为1×1的滤波器的点态卷积操作。XP为输入数据,D为隐藏维度。θ表示点态卷积的参数。

5.2.2 时间嵌入

        为了保留token中的时间信息,本文利用一个线性层将输入数据编码到单独的嵌入层中,包括日模式和周模式的时间嵌入。具体如下:

0e5821cbd3b5033cd27e6bd199d5973a.png

         其中,953b1b5341ca9baa7e16d7cc41d5c6a8.png0cdd77983c36c712d433ece382d51ae2.png分别为日模式和周模式的可学习参数嵌入。通过添加这两个嵌入,本文得到了时间嵌入5e08e92514c59f3f540a82fb08ef2694.png.

5.2.3 空间嵌入

        为了挖掘token对之间的空间相关性,本文设计了一个自适应的token嵌入,5c028037caa1b2303ba35b9af342781f.png

fb46b37dd6ba0b1b230bbf4300d64e33.png

        其中σ为激活函数,f82fba6660a29d8e2b80259a99fe98f9.pngeea67b865ded69e96b97483d429f08c8.png为可学习参数。

5.2.4 信息融合

        随后,本文引入了一个融合卷积(FConv)来将交通特征投影到LLM的所需维度上。具体来说,FConv集成了token、空间和时间嵌入以一致地表示每个token:

5e48632d3bb912cfa79a73ad077bbaf4.png 

        其中,628c5de34873e10a5b855458367ff0af.png,||表示连接,θ表示FConv的可学习参数。

5.3 部分注意力冻结策略

        在FPT框架中,多头注意力层和前馈层在训练过程中都被冻结,这些层包含了LLM中学习知识的最重要部分。FPT和本文的PFA之间的区别主要在于冻结的注意层。在PFA中,保持前F层与FPT相同,但最重要的是,本文解冻了后U层的多头注意力层,因为注意层有效地处理了数据中的时空依赖性。因此,本文的PFA LLM可以在保持基础知识的同时适应交通预测在训练前获得。

        此外,本文的PFA LLM将传统的计算维数从时间转换为空间。这种反转是有意的,并与部分冻结层的操作相一致。通过焦点在空间维度上,本文的模型比本文只关注时间方面更有效地捕获全局依赖关系。这种转变与交通预测尤其相关在这里,空间动力学在决定流体模式中起着关键的作用。

        PFA LLM是使用基于transformer的架构构建的,本文选择了GPT2 。GPT2在很大程度上遵循了OpenAI GPT模型的细节,并进行了一些修改。值得注意的是,归一化层模块化定位于每个子块的输入端,类似于剩余网络中的预激活。此外,在最后的多头注意之后,还添加了一个额外的层标准化。此外,本文引入了一种PFA策略来适应GPT2来捕获融合张量HF的时空依赖性。

        在PFA LLM之后,本文设计了一个回归卷积(RConv)来预测以下S个时间步长上的交通量:

7f654bc8b7723229a9b6baad44c44a7c.png

        ST-LLM的损失函数建立如下:

3d5b078b2c9f113bc3b767997ffa3585.png

d595b5933a8f4c757dd061e5325c0fe5.png

实验

c27508fbbdd6b579b4525fef5b32a827.png

6.1 总体效果

        与基线的比较结果见下表。标粗的结果是最好的,带下划线的结果是第二好的。ST-LLM中的LLM是GPT2。本文得到如下结论:(1)基于llm的方法具有优越的预测结果,其中ST-LLM的性能最好。ST-LLM在四个数据集上流量预测效果都优于其他llm (2) OFA和LLAMA2是合格的,但被STLLM超越,STLLM的平均MAE比OFA提高了22.5%,比LLAMA2提高了20.8%。这可能是由于OFA的流量数据嵌入效率低下,使得LLM难以理解数据之间的时空依赖关系。尽管LLAMA2的尺寸和复杂性更大,但它并不能直接转化为比ST-LLM更好的流量预测。GATGPT和GCNGPT不会提取交通数据的时间表示,以影响LLM捕获时空依赖关系。(3)基于注意力的模型,如ASTGNN和GMAN,在不同的数据集上表现出不同的性能。他们在某些情况下表现得很好,但不如ST-LLM。这种可变性可能归因于传统的注意机制在处理复杂的时空嵌入方面的局限性。(4)基于GNN的模型,如GWN和DGCRN,表现出了具有竞争力的性能,特别是在特定的指标方面,但仍然不能超过ST-LLM。这表明,虽然GNN为了捕获空间依赖性,它们的时间分析能力可能没有ST-LLM那样先进,这限制了它们的整体性能。综上所述,实验结果在不同类型的模型之间显示出明显的性能差别。基于llm的方法成为表现最好的方法,展示了它们处理不同交通预测任务的能力。在基于llm的模型之后,基于注意的模型占据了第二。最后,基于GCN的模型虽然仍然有效,但排名较低,与上述模型相比。这个层次结构突出了模型功能的不断发展的格局,基于llm的方法在交通预测任务中处于领先地位。

8fc3c8217fb9f7038a6719be0225cb59.png

6.2 消融实验

6.2.1 模型组建消融

        ST-LLM由几个关键组件组成,每个组件都有助于其在交通预测中的整体有效性。本节比较ST-LLM各组件变化以证明不同组成部分的有效性。

w/o LLM:删除LLM的ST-LLM的变体。

w/o ST:去掉ST-时空嵌入的llm的变体。

w/o T:去除时间嵌入。

w/o S:去掉了空间嵌入。

        下图展示了在NYCTaxi数据集上的消融实验,分析了ST-LLM模型中不同组件的影响。没有使用LLM的变体(w/o LLM)在所有指标上的误差都有显著增加。移除LLM导致性能下降,表明ST-LLM的预测能力很大程度上依赖于LLM从交通数据中学习复杂依赖关系的能力。

        移除时空嵌入(w/o ST)也导致了显著的性能下降,这突显了时空嵌入在理解交通数据中时空依赖关系的重要性。实验结果显示,移除时间(w/o T)或空间(w/o S)组件都会对模型的预测误差产生类似的影响。去掉这些嵌入中的任意一个,都会导致误差增加,表明它们都是准确预测所必需的。特别地,移除时间组件会带来更大的预测误差,这进一步强调了本文精心设计的时间(小时)和周(天)嵌入的重要性。

        这一观察进一步说明了平衡的空间和时间嵌入在提升模型预测性能中的关键作用。当所有组件都整合在一起时(即完整的ST-LLM模型),本文在所有指标上都观察到最低的误差率。这表明结合LLM、空间和时间嵌入对于处理交通预测中的时空依赖关系具有显著的效果。

7faccde664abe64906a3d5318df255af.png

6.2.2 注意力冻结消融

        部分冻结注意力LLM的消融实验。在本小节中,本文进行了消融实验,评估本文提出的部分冻结注意力(PFA)LLM的有效性。PFA与几种变体进行了对比:冻结预训练Transformer(FPT)、未使用预训练的模型(No Pretrain)、使用GPT-2全部十二层的模型(Full Layer)以及没有冻结层、完全微调的模型(Full Tuning)。PFA LLM的消融结果展示在下表中。PFA在所有数据集的所有指标上表现出优越的性能,这表明部分冻结注意力显著提升了预测准确性。

        虽然FPT表现出较为出色的性能,但仍稍逊于PFA。这表明部分冻结策略在利用预学习特征和适应新数据之间达到了更佳的平衡。Full Layer和Full Tuning模型表现出竞争力,但它们的效率和准确性仍不及PFA模型。这强调了选择性冻结在管理模型适应性方面的优势。

        与No Pretrain模型的对比突出了预训练对模型性能的重要性。虽然No Pretrain模型表现得还算不错,但很明显,预训练,特别是结合部分冻结策略,对于实现更高精度至关重要。

d365a82878222a27f0f5936a4c65f0a7.png

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com