咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >高质量的材料科学文本挖掘数据集构建方法 收藏

高质量的材料科学文本挖掘数据集构建方法

A high-quality dataset construction method for text mining in materials science

作     者:刘悦 刘大晖 葛献远 杨正伟 马舒畅 邹喆乂 施思齐 Liu Yue;Liu Da-Hui;Ge Xian-Yuan;Yang Zheng-Wei;Ma Shu-Chang;Zou Zhe-Yi;Shi Si-Qi

作者机构:上海大学计算机工程与科学学院上海200444 上海大学材料科学与工程学院上海200444 上海大学材料基因组工程研究院上海200444 上海市智能计算系统工程技术研究中心上海200444 湘潭大学材料科学与工程学院湘潭411105 

出 版 物:《物理学报》 (Acta Physica Sinica)

年 卷 期:2023年第72卷第7期

页      面:41-54页

核心收录:

学科分类:08[工学] 081203[工学-计算机应用技术] 0805[工学-材料科学与工程(可授工学、理学学位)] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家重点研发计划(批准号:2021YFB3802101) 国家自然科学基金(批准号:92270124,52073169,52102313)资助的课题. 

主  题:材料科学文本挖掘 数据增强 数据质量 

摘      要:科学文献中蕴含的大量历史数据和经验知识,对材料设计与研发具有重要参考价值.文本挖掘尽管能高效地探索并利用被存储在海量科学文献中的信息,但高质量文本数据的获取困难阻碍了其在材料领域更广泛的应用.本文从品质和数量双视角剖析了材料领域的文本数据质量问题及其相关研究工作,提出高质量的材料科学文本挖掘数据集构建方法.该方法通过可溯源的文献自动获取方案确保文本数据的源头可追溯;以下游任务为驱动对文献进行预处理以提升预标注文本语料的质量;基于材料四面体准则定义适配全体系的标签注释方案以完成对语料的高品质标注;利用融合材料领域知识的有条件文本数据增强模型实现材料文本数据量的扩充.在不同体系数据集上的实验结果表明,该方法可有效地提升下游文本挖掘模型的预测精度,其中在NASICON型固态电解质材料实体识别任务上的F1值达84%.本文为文本挖掘在材料领域的深入应用提供理论指导和解决方案,并有望推进数据与知识双向驱动的材料设计与研发.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分