基于度量学习的标签推荐算法研究
作者单位:浙江科技大学
学位级别:硕士
导师姓名:费正顺
授予年度:2024年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:标签推荐是指一种用于为用户生成或推荐标签(也称为关键词、标识符或元数据)的技术,在许多复杂应用场景中能够向使用智能设备的用户推荐符合自身意图的标签来描述产品的内容。随着计算机科学和AI产业的迅速发展,标签推荐一方面可帮助用户、企业和研究者更好地处理海量的信息和数据,另一方面可以提高生产效率、降低企业成本,提供可靠的产品和增加用户对企业的信任度。因此,标签推荐作为人工智能,计算机科学和数据挖掘等众多交叉学科中的长期研究热点,受到学术界和工业界的大量关注。然而,现有的标签推荐建模方法面临着四个主要的研究问题,分别是以内积预测得分而不满足三角形不等式、易于遭受噪声干扰产生错误分类、数据多样性有限和难以在欧几里得空间中捕获层级结构。为此,本论文围绕度量学习在标签推荐中的应用开展了系统性研究,针对上述研究问题,分别提出了基于角裕度成对度量学习的标签推荐、基于深度对抗度量学习的标签推荐、基于困难负样本合成度量学习的标签推荐和基于双曲空间增强度量学习的标签推荐。本文的主要贡献可以概括如下:首先,本文提出一种基于成对度量学习模型,构建了用户-项目-标签三联体之间的距离度量,采用欧氏距离针对实体的距离关系进行设计,并以三重损失推动相似样本靠近,同时将负样本推远。另一方面,度量学习面临固定裕度的限制,不同数据类别通常有着不同的类内变化,固定裕度往往造成分类的不准确性,降低标签推荐的质量。为此,本文提出一种基于角裕度成对度量学习模型,在原有三重损失基础上,额外设计了一项角裕度正则化器,分别控制用户-标签和项目-标签的角裕度大小,并通过约束角裕度正则化器的强度来动态调整实体对的距离变化,相比传统的度量学习方法能够捕获额外的关系结构。最终在基于真实业务应用场景下获取的数据开展实验验证,验证了基于角裕度成对度量学习模型在标签推荐中的有效性、可解释性和性能准确性。然后,由于数据样本往往遭受噪声的干扰,导致测试数据与训练数据差异较大,通常难以取得良好泛化能力。为此本文提出一种基于深度对抗度量学习模型。一方面,利用注意力机制将用户偏好、项目特征反映在不同类型的标签信息交互中,自适应地学习用户-标签以及项目-标签之间的潜在关系。此外,本文构造了结合度量学习和对抗学习的新型目标函数,其原理为在原始参数上直接添加对抗扰动,旨在攻击原始模型参数以及迫使系统进行对抗防御。最终在三个公开可用数据集上进行大量实验,验证了基于深度对抗度量学习模型的有效性和准确性。接着,由于训练数据中的困难负样本通常只占少数,分类器的分类能力在训练过程仅依赖于简单的负样本而受到限制,接近边缘的困难负样本常常难以挖掘,导致在分类过程中这些困难的负样本被错误的推荐给用户。为此,本文提出一种基于困难负样本合成的度量学习模型,利用一个全连接网络针对标签的负样本进行扩充,借助所合成的困难负样本,可以丰富数据的多样性,准确识别和推荐罕见的或难以预测的标签。此外,通过联合训练对抗负样本损失函数和原始距离度量损失函数,能够共同优化推荐结果的质量。最终,基于从真实音乐网站和电影网站上收集的数据集,开展大量实验验证了方法的有效性,还进行了一项有效的消融实验来量化对抗组成成分对推荐性能的贡献。最后,在双曲空间中构建用户-项目-标签的双曲距离关系,为此本文提出一种基于双曲嵌入学习模型,利用庞加莱球模型建模了用户-标签和项目-标签的双曲距离关系,并采用了三重损失来减小相似数据间的距离并扩大不同数据间的距离,同时使用黎曼梯度下降法对涉及到的参数进行更新。另外,基于图神经网络的标签推荐模型被用于捕获用户-项目-标签的高阶协作信号,然而这些方法只能针对邻居节点的信息进行聚合,其难以捕获图的树状/层级结构,只能捕获局部特征。为此,本文提出一种基于双曲图卷积神经网络模型,利用对数映射将用户、项目和标签的嵌入表示映射在切空间中并针对图卷积层进行了设计,建模了用户-标签和项目-标签的交互图来聚合高级邻居表示,并将聚合后的邻居表示通过一个指数映射投影到双曲空间中。最终在真实数据集上进行了大量实验验证,针对不同组件、不同裕度的取值、不同维度变化和不同参数的影响进行了有效分析,为在标签推荐中应用双曲空间做了一定的可解释说明。