嘉兴首页_国家备案网_深圳市seo上词贵不贵_网络推广策划

摘要

本文介绍了一种新型的基于协同大型语言模型（CLLM4Rec）的推荐系统，该系统将传统的基于ID的推荐系统范式与基于大型语言模型（LLM）的范式相结合，旨在解决自然语言与推荐任务之间语义差异的问题。通过引入用户/项目ID标记和创新的软+硬提示策略，CLLM4Rec能够有效地学习用户和项目的协同和内容语义，从而提高推荐的准确性和效率。

CLLM4Rec模型的核心在于将用户和项目的ID标记引入到预训练的LLM中，以更好地捕捉用户和项目的协同和内容语义。模型结构如下：

词汇扩展：在LLM的词汇表中添加用户和项目的ID标记，如<user_i>和<item_j>。
标记嵌入：为新引入的用户和项目标记学习嵌入向量，这些嵌入向量与词汇表空间对齐，以准确表示用户和项目的协同和内容语义。
软+硬提示策略：将文档分解为包含软（用户/项目）标记和硬（词汇）标记的提示部分，以及由同质项目标记或词汇标记组成的正文部分，以促进稳定有效的语言建模。

输入输出转变

输入：CLLM4Rec的输入包括用户和项目的交互历史以及用户和项目的文本特征。例如，用户与项目的交互历史可以表示为<user_i> has interacted with <item_j> <item_k>，而项目的文本特征可以表示为<item_j> is a computer。
输出：模型的输出是基于输入提示生成的项目预测，如预测用户可能感兴趣的下一个项目。

方法介绍

互惠正则化预训练

CLLM4Rec采用互惠正则化策略进行预训练，以学习用户和项目的协同和内容标记嵌入。具体步骤如下：

协同LLM：通过语言建模学习用户和项目的协同信息，将用户与交互项目的标记嵌入推向彼此靠近。
内容LLM：通过语言建模学习用户和项目的内容信息，将用户和项目的文本特征编码到内容标记嵌入中。
互惠正则化：协同LLM和内容LLM相互引导，协同LLM从用户/项目内容中捕获与推荐相关的信息，而内容LLM则引入辅助信息以支持协同过滤。

创新点

软+硬提示策略：通过将文档分解为软（用户/项目）标记和硬（词汇）标记的提示部分，以及同质项目标记或词汇标记的正文部分，CLLM4Rec能够有效地进行语言建模，提高模型的稳定性和有效性。
互惠正则化预训练：协同LLM和内容LLM相互引导，协同LLM从用户/项目内容中捕获与推荐相关的信息，而内容LLM则引入辅助信息以支持协同过滤，从而提高推荐的准确性和效率。
推荐导向的微调：通过掩码提示和多项式预测头，CLLM4Rec能够在单次前向传播中高效地生成推荐，避免了幻觉问题。

实验

数据集

实验使用了四个公共数据集（Amazon Beauty、Amazon Toys、Amazon Sports和Yelp）以及LinkedIn的工作推荐数据集。数据集的统计信息如下表所示：

数据集	#Int.	#Users	#Items	Sparsity	#Feat.
AM-Beauty	94,148	10,553	6,086	99.85%	70,604
AM-Toys	95,420	11,268	7,309	99.88%	70,784
AM-Sports	185,718	22,686	12,301	99.93%	137,618
Yelp	292,017	28,330	18,775	99.94%	224,825
LinkedIn	90,173	22,391	1,071	99.62%	23,362

实验结果

实验结果表明，CLLM4Rec在各个数据集上的性能均优于现有的基于ID和基于LLM的推荐系统。例如，在Amazon Beauty数据集上，CLLM4Rec的Recall@20、Recall@40和NDCG@100指标分别为0.1656、0.2323和0.1118，显著高于其他基线模型。

结论

CLLM4Rec作为一种新型的推荐系统，通过将基于ID的推荐系统范式与基于LLM的范式相结合，有效地解决了自然语言与推荐任务之间的语义差异问题。通过引入用户/项目ID标记和创新的软+硬提示策略，CLLM4Rec能够准确地捕捉用户和项目的协同和内容语义，从而提高推荐的准确性和效率。实验结果表明，CLLM4Rec在多个数据集上的性能均优于现有的推荐系统，具有广泛的应用前景。

嘉兴首页_国家备案网_深圳市seo上词贵不贵_网络推广策划

摘要

相关工作

推荐系统

大型语言模型

CLLM4Rec模型

模型结构

输入输出转变

方法介绍

互惠正则化预训练

推荐导向的微调

创新点

实验

数据集

实验结果

结论

最新新闻

热搜词