图神经网络加持突破传统推荐系统局限！北大港大联合提出SelfGNN：有效降低信息过载与数据噪声影响-IM电竞(官方)

图神经网络加持突破传统推荐系统局限！北大港大联合提出SelfGNN：有效降低信息过载与数据噪声影响

栏目：最新动态发布时间：2024-07-10

　顺序推荐通过模拟用户的时间和顺序交互模式有效地解决了信息过载问题，为了克服监督信号的局限性，一些方法在推荐系统中采用了自监督学习技术。　　首先，现有的顺序模

　　顺序推荐通过模拟用户的时间和顺序交互模式有效地解决了信息过载问题，为了克服监督信号的局限性，一些方法在推荐系统中采用了自监督学习技术。

　　首先，现有的顺序模型主要集中于长期建模个别交互序列，IM电竞平台忽视了不同用户行为之间宝贵的短期合作关系。

　　其次，现实世界的数据通常包含噪声，特别是在用户的短期行为中，这可能源于临时意图或误点击，这种噪声对图模型和序列模型的准确性产生负面影响，进一步复杂化了建模过程。

　　为了克服上述难题，北京大学、香港大学的研究人员提出了一种名为 Self-Supervised Graph Neural Network（SelfGNN）的全新框架，用于序列推荐。

　　SelfGNN能够捕捉多粒度的用户行为模式：基于图神经网络（GNN）对时间片段内的交互行为建模，考虑了短期的高阶协同关系；基于序列模型对用户跨时间片段的行为进行关联学习，捕捉长期的时序变化模式。

　　此外，研究人员提出了一种个性化自增强学习方法，通过对比长短期用户行为模式来降低数据噪音的影响，从而增强模型的稳健性。

　　因此，SelfGNN根据时间间隔将全局数据划分为多个短期图，然后利用层图卷积神经网络（GCN）协同传播高阶信息。分别表示从相邻节点聚集到中心节点和的信息。合并不同层GCN的输出，得到第个短期阶段的用户嵌入和商品嵌入。通过这种方式，SelfGNN不仅捕获了协同信号，还包含了短期时间信息。双粒度长期行为建模SelfGNN通过间隔级别（interval-level）融合和实例级别（instance-level）行为建模在双粒度级别捕获长期用户和项商品表示。从两个不同的层次进行长期特征学习，能够使得两个层次互相补偿，增加可学习的信息。Interval-level序列建模对于每个用户和商品的短期阶段性嵌入和，通过GRU学习动态位置以构建interval-level的时间序列和。基于多头自注意力机制得到interval-level的长期特征嵌入和。Instance-level序列建模基于商品的长期特征嵌入，通过融合位置编码的多头自注意力机制对用户行为序列进行学习，得到用户的实例级别长期特征。多视角融合和预测在预将实例级和间隔级方法得到的多层次用户特征进行融合，并最终做出如下预测：损失函数为：个性化自监督去噪为了缓解用户序列行为数据中普遍存在的数据稀疏性和数据噪声问题，SelfGNN通过一个个性化去噪自监督学习任务进行了进一步增强。这里的“噪声”指的是暂时性的意图或误点击。他们不能被视为长期用户兴趣或新近兴趣点的预测。具体而言，SelfGNN的自监督任务专注于使用长期行为模式过滤短期非固有用户偏好。

　　这个设计基于以下观察：用户的行为可能受到短期随机兴趣的驱动，例如，一个不喜欢徒步旅行的用户也可能因为一次性活动购买徒步鞋和能量饮料。这种噪声行为数据可能会干扰用户长期真实兴趣的建模。此外，为了准确识别这些噪声的短期行为，根据不同用户的兴趣多样性对去噪SSL任务进行了个性化，如图3所示。

　　和多个不同类型的推荐方法对比，SelfGNN由于其长短期兴趣学习能力和自监督的能力得到了更好的推荐效果。

　　在论文中，SelfGNN也提供了消融实验对各个结构的有效性进行了分析。

　　为了评估SelfGNN在噪声问题上的鲁棒性，通过随机替换所有用户的实际交互项的不同百分比为随机生成的虚假项，并使用这些损坏的序列作为输入重新训练模型。

　　在较为稀疏的Amazon数据集中，虽然SURGE在少量噪声下表现良好，但在面对20%的噪声时，其性能迅速下降。

　　在相对密集的Movielens数据集中，模型在20%的噪声情况下达到了相对79%的%的NDCG@10。

　　在噪声问题的鲁棒性归因于SelfGNN在个性化自监督学习中通过长期特征来减轻短期图中的噪声的能力。

　　SelfGNN的长期表示是通过间隔级别GRU注意机制结合短期特征获得的，IM电竞平台这使得最终的长期用户兴趣表示在短期噪声减少时受益于去噪效果。

　　如图5所示，随机选择了一个用户（id为6128）和该用户的一部分行为序列，以及另一个与用户（id为6128）具有至少20个共同交互项的用户（id为824）。

　　作者计算并归一化了在没有（wo-score）和有（w-score）自监督学习情况下的最终用户-物品相似度分数

　　通过观察，可以看到商品（id为6282）的得分在包含自监督学习后从0.8239下降到0.3686。这表明模型识别该物品为需要减弱的噪声交互。

　　首先，书籍商品（id为6282）的类别是「Mystery」，这与用户关注的其他物品的类别（「Action & Adventure」）不同。

　　其次，从商品的编码热图中可以明显看出，商品 (id为6282) 在多个维度上表现出与其他物品不同的特征。

　　与没有使用自监督学习的情况相比，同一用户连续交互的物品特征表现出更大的差异性，这证明了自监督学习范式减轻了由图神经网络引起的平滑问题。

　　为了验证在所有用户序列中，类似于商品（id为6282）的其他噪声物品是否相对于其各自序列中的正常物品表现出显著的特征差异，进行了一个统计实验。

　　论文中计算了在有和没有自监督学习范式下，用户（id为6128）的行为序列中商品(id为6282) 与其他商品之间的特征嵌入的平均余弦相似度。

　　然后，同样计算了在其他用户序列中满足噪声条件的商品与该商品所在序列的其余商品之间的平均余弦相似度。

　　统计结果如下表所示，结果表明在自监督学习模型（w-SAL）中，噪声物品与其他物品之间的平均余弦相似度显著低于没有自监督学习的模型（w/o-SAL）中的对应值。

　　SelfGNN使用图神经网络的用户序列学习，并提出了一种新颖的个性化自监督学习范式来增强鲁棒性。SelfGNN通过结合周期性协同信息和行为序列依赖性，学习了更好的兴趣表示，并通过自增强学习根据个体用户的稳定性特征自适应地减弱短期噪声。在未来的研究中，首先，可以计划探索自适应动态短期图划分技术，以更好地捕捉不同数据的短期特征。其次，SelfGNN的个性化自监督学习范式不局限于图神经网络的序列推荐框架中，它可以被推广、应用到更多的结构和场景中来完成良好的去噪效果。参考资料：abs/2405.20878

上一篇：创新数据资产融资模式培育数据资产新业态

下一篇：阿里巴巴涨近3% 高管称中国在人工智能创新的速度与美国相近

联系方式

IM电竞(官方)

电话：18632289905
传真：18632289905
手机：18632289905
Q Q：632289905
邮箱：info@qr-tek.com.cn
地址：辽宁省沈阳市铁西区服务中心

TOP

IM (中国电竞) 官方网站

联系方式