面向文本聚类的实体—动作关联模型研究
A Entity-Action Relationship Model for Text Clustering作者机构:贵州大学计算机科学与技术学院贵州贵阳550025
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2018年第32卷第5期
页 面:22-30页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:文本表示模型 实体—动作关联 句型识别 动作层次分解
摘 要:该文提出面向文本聚类分析的实体—动作关联模型EARM,探讨汉语语义实体及其行为的描述方法。汉语属于非形态语言,语句没有时态及语态的变化,词类跟句法成分之间也不是简单的一一对应关系。该文提出一种句法成分识别机制,根据词汇类别特征及位置特征识别实体及动作。在句法成分识别的基础上展开句法分析,通过匹配句型特征建立实体—动作关联模型EARM,描述实体的行为及状态。对于嵌套句型等较为复杂的句型结构,需要在句法分析过程中实施动作层次分解,将复杂语句分解为简单的基本句型,以便于挖掘实体—动作关联。考虑到汉语语法比较灵活,语句成分缺省和倒装现象相对普遍,该文提出了倒装句的识别机制,通过匹配接近的句型进行实体移位,调整语序。论述了基于统计模型的EARM权重量化策略,借助语法树的最大公共子图量化文本的相似度并实施聚类,设计并开展了EARM实体—动作分析实验和EARM聚类实验。实验结果表明EARM的分析是准确有效的,聚类结果是合理的。