面向文档质量评价的主题提取与对比分析
作者单位:华中科技大学
学位级别:硕士
导师姓名:徐丽萍
授予年度:2017年
学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:文档质量评价 TextRankCW 主题对比分析 G1赋权法
摘 要:随着信息化程度不断提高,企业中文档类交付物越来越多,这将消耗大量的人力物力对其进行评审,如何让计算机自动评价文档交付物,将是交付物管理中重要的议题。交付物的质量评价涉及到理解交付物的内容,基于该内容判断其是否满足标准中定义的特征属性进行质量评价,计算机自动化评价一直是难点。基于此,提出了主题提取和主题对比分析的方法,可以对交付物进行粗糙的质量评价,为人工评价起到辅助作用。为了提高文档类交付物主题提取效果,在TextRank主题提取算法的基础上,引入覆盖影响力、词频、词语位置、词性四个因素来综合计算词语间的转移概率,并采用G1赋权法赋予四个因素不同的权重值,设计并实现了综合权重的主题提取算法——TextRankW算法。还设计了一种基于《知网》的主题对比分析方法,根据《知网》知识库的上下位结构树计算出主题词间的义原相似度,进而求出词语相似度和主题相似度。若相似度在规定的阈值范围内,即可判断文档交付物讨论的主题聚焦于标准主题,进而实现对文档类交付物的粗糙质量评价。经过实验验证,TextRankW算法能够获得较好的主题提取效果,在准确率和召回率上明显优于TextRank算法。并且在实际项目中,基于《知网》的主题对比分析能够实现对交付物质量的粗糙评价。