您的位置:首页 > 科技 > IT业 > 嘉兴首页_国家备案网_深圳市seo上词贵不贵_网络推广策划

嘉兴首页_国家备案网_深圳市seo上词贵不贵_网络推广策划

2025/1/11 15:49:31 来源:https://blog.csdn.net/HE2096798708/article/details/145023559  浏览:    关键词:嘉兴首页_国家备案网_深圳市seo上词贵不贵_网络推广策划
嘉兴首页_国家备案网_深圳市seo上词贵不贵_网络推广策划

摘要

本文介绍了一种新型的基于协同大型语言模型(CLLM4Rec)的推荐系统,该系统将传统的基于ID的推荐系统范式与基于大型语言模型(LLM)的范式相结合,旨在解决自然语言与推荐任务之间语义差异的问题。通过引入用户/项目ID标记和创新的软+硬提示策略,CLLM4Rec能够有效地学习用户和项目的协同和内容语义,从而提高推荐的准确性和效率。

相关工作

推荐系统

推荐系统(RS)是在线服务平台的重要组成部分,主要分为基于ID的推荐系统和基于内容的推荐系统。基于ID的推荐系统通过学习用户和项目的ID嵌入来表示其语义相似性,如矩阵分解和双塔模型等方法。而基于内容的推荐系统则通过分析用户和项目的文本特征来进行推荐。

大型语言模型

近年来,大型语言模型(LLM)在自然语言处理领域取得了显著进展。例如,GPT、T5和LLaMA等模型在大规模语料库上进行预训练,展现出对自然语言的深刻理解和逻辑推理能力。然而,将LLM应用于推荐系统仍面临诸多挑战,如自然语言与用户/项目语义之间的语义差异等。

CLLM4Rec模型

模型结构

CLLM4Rec模型的核心在于将用户和项目的ID标记引入到预训练的LLM中,以更好地捕捉用户和项目的协同和内容语义。模型结构如下:

  • 词汇扩展:在LLM的词汇表中添加用户和项目的ID标记,如<user_i><item_j>
  • 标记嵌入:为新引入的用户和项目标记学习嵌入向量,这些嵌入向量与词汇表空间对齐,以准确表示用户和项目的协同和内容语义。
  • 软+硬提示策略:将文档分解为包含软(用户/项目)标记和硬(词汇)标记的提示部分,以及由同质项目标记或词汇标记组成的正文部分,以促进稳定有效的语言建模。

输入输出转变

  • 输入:CLLM4Rec的输入包括用户和项目的交互历史以及用户和项目的文本特征。例如,用户与项目的交互历史可以表示为<user_i> has interacted with <item_j> <item_k>,而项目的文本特征可以表示为<item_j> is a computer
  • 输出:模型的输出是基于输入提示生成的项目预测,如预测用户可能感兴趣的下一个项目。

方法介绍

互惠正则化预训练

CLLM4Rec采用互惠正则化策略进行预训练,以学习用户和项目的协同和内容标记嵌入。具体步骤如下:

  • 协同LLM:通过语言建模学习用户和项目的协同信息,将用户与交互项目的标记嵌入推向彼此靠近。
  • 内容LLM:通过语言建模学习用户和项目的内容信息,将用户和项目的文本特征编码到内容标记嵌入中。
  • 互惠正则化:协同LLM和内容LLM相互引导,协同LLM从用户/项目内容中捕获与推荐相关的信息,而内容LLM则引入辅助信息以支持协同过滤。

推荐导向的微调

在预训练的基础上,CLLM4Rec进一步进行推荐导向的微调,以提高推荐的效率和准确性。具体步骤如下:

  • 掩码提示:随机掩码用户交互历史中的部分项目,生成推荐导向的提示和目标。
  • 多项式预测头:在预训练的协同LLM基础上添加新的项目预测头,采用多项式似然进行推荐生成。

创新点

  • 软+硬提示策略:通过将文档分解为软(用户/项目)标记和硬(词汇)标记的提示部分,以及同质项目标记或词汇标记的正文部分,CLLM4Rec能够有效地进行语言建模,提高模型的稳定性和有效性。
  • 互惠正则化预训练:协同LLM和内容LLM相互引导,协同LLM从用户/项目内容中捕获与推荐相关的信息,而内容LLM则引入辅助信息以支持协同过滤,从而提高推荐的准确性和效率。
  • 推荐导向的微调:通过掩码提示和多项式预测头,CLLM4Rec能够在单次前向传播中高效地生成推荐,避免了幻觉问题。

实验

数据集

实验使用了四个公共数据集(Amazon Beauty、Amazon Toys、Amazon Sports和Yelp)以及LinkedIn的工作推荐数据集。数据集的统计信息如下表所示:

数据集#Int.#Users#ItemsSparsity#Feat.
AM-Beauty94,14810,5536,08699.85%70,604
AM-Toys95,42011,2687,30999.88%70,784
AM-Sports185,71822,68612,30199.93%137,618
Yelp292,01728,33018,77599.94%224,825
LinkedIn90,17322,3911,07199.62%23,362

实验结果

实验结果表明,CLLM4Rec在各个数据集上的性能均优于现有的基于ID和基于LLM的推荐系统。例如,在Amazon Beauty数据集上,CLLM4Rec的Recall@20、Recall@40和NDCG@100指标分别为0.1656、0.2323和0.1118,显著高于其他基线模型。

结论

CLLM4Rec作为一种新型的推荐系统,通过将基于ID的推荐系统范式与基于LLM的范式相结合,有效地解决了自然语言与推荐任务之间的语义差异问题。通过引入用户/项目ID标记和创新的软+硬提示策略,CLLM4Rec能够准确地捕捉用户和项目的协同和内容语义,从而提高推荐的准确性和效率。实验结果表明,CLLM4Rec在多个数据集上的性能均优于现有的推荐系统,具有广泛的应用前景。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com