基于医学主题词标引规则的词共现聚类分析结果自动判读和表达的研究
Automatic Expression of Co-occurrence Clustering Based on Indexing Rules of Medical Subject Headings作者机构:中国医学科学院/北京协和医学院医学信息研究所/图书馆北京100020 中国医科大学医学信息学院沈阳110122
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2020年第4卷第9期
页 面:133-144页
核心收录:
学科分类:050302[文学-传播学] 05[文学] 0503[文学-新闻传播学]
摘 要:【目的】探索一种易于用户理解的规范化、自动化聚类结果判读和表达方式,促进主题词共现聚类的发展。【方法】以肿瘤诊断主题为例,参考标引教材梳理相关的主题词/副主题词标引规则,选取10组肿瘤为训练集进行高频主题词共现聚类分析,人工审读聚类结果,结合标引规则,梳理高频主题词语义类型/副主题词组合规则。基于规则编写Python程序,自动解读验证集中4组肿瘤的聚类结果,并请专家对其揭示类团内容的准确性、全面性、实用性、易理解性和简洁性进行评价。【结果】整理标引规则30条,梳理面向主题词共现聚类结果解读的语义类型/副主题词组合规则98条。验证集的5个评价指标(准确性、全面性、实用性、易理解性和简洁性)分值分别为4.282、4.435、4.209、4.457、4.206(满分5分)。【局限】探索语义类型/副主题词组合规则时,研究结果与每次聚类过程中高频阈值的选择、聚类结果数的确定均有关联。利用组合规则解读类团内容难以揭示类团隐藏信息。【结论】基于规则自动解读主题词共现聚类分析结果具有较强适用性,在一定程度上促进了主题词共现聚类分析结果表达的客观化与规范化。