咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度文本聚类的论文与专利数据融合方法研究 收藏

基于深度文本聚类的论文与专利数据融合方法研究

Paper and Patent Data Fusion Based on Deep Text Clustering

作     者:谢士尧 王小梅 Xie Shiyao;Wang Xiaomei

作者机构:中国科学院科技战略咨询研究院北京100190 中国科学院大学公共政策与管理学院北京100049 

出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)

年 卷 期:2024年第8卷第4期

页      面:112-124页

核心收录:

学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120502[管理学-情报学] 

基  金:中国科学院战略研究专项“重要学科领域发展态势研究与决策支持”(项目编号:GHJ-ZLZX-2022-09)研究成果之一 

主  题:深度文本聚类 数据融合 论文 专利 研究主题识别 

摘      要:【目的】克服论文与专利之间语言特征差异的障碍,将论文和专利数据按照研究主题集成融合。【方法】以维基百科为基本分类体系,通过半自动方式构建少量标注集,设计半监督深度文本聚类模型,将相似主题的论文与专利聚类融合,设计指标评估数据融合结果的质量。【结果】所提模型在两个数据集上的聚类准确率比其他基线模型提升了2.4~11.9个百分点,数据融合结果的质量评估得分超过0.9,优于基线模型,可以在已知主题的基础上补充研究主题。【局限】未利用融合数据开展实证分析,聚类数目需要人工确定。【结论】所提模型可以从论文和专利差异化的文本中提取与主题相关的特征,有效地实现数据融合。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分