基于意图正则化的深度半监督文本聚类
作者机构:文本计算与认知智能教育部工程研究中心(贵州大学) 公共大数据国家重点实验室(贵州大学) 贵州大学计算机科学与技术学院
出 版 物:《计算机应用》 (Journal of Computer Applications)
年 卷 期:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:针对现有半监督文本聚类方法无法在表示学习和聚类过程中同时考虑用户意图的问题,提出了基于意图正则化的深度半监督文本聚类模型(IRDSTC)。通过引入意图正则化策略,设计了意图正则化的表示学习(IRRL)模块和意图正则化的聚类(IRC)模块。首先,根据用户提供的意图约束信息构建意图矩阵,以捕获用户对文本之间关系的期望;其次,将该矩阵应用到表示学习阶段和聚类阶段。在表示学习阶段,将深度模型提取的中间层表示转换为表示关联性矩阵,并结合意图矩阵构造正则项,旨在利用用户意图驱动表示学习;在聚类阶段,根据聚类迭代得到的类簇分配概率构造分配一致性矩阵,并结合意图矩阵构造正则项,以实现用户意图对聚类过程的指导。实验结果表明,所提出的模型在Reu-10k、BBC、ACM和Abstract数据集上相较于其他聚类方法在聚类准确率、标准化互信息和调整兰德指数评价指标上均具有更好的表现,相较于次优的SDEC,IRDSTC的聚类标准化互信息分别提升了36.39%、67.56%、28.95%、20.76%,表明了IRDSTC具有更好的聚类效果。