基于BERT与XGBoost的航天科技开源情报分类
Research on Classification of Aerospace Science and Technology Open Source Information Based on BERT and Xgboost作者机构:北京信息科技大学网络文化与数字传播北京市重点实验室北京100192 北京信息科技大学数据与科学情报分析实验室北京100192 北京跟踪与通信技术研究所北京100192
出 版 物:《郑州大学学报(理学版)》 (Journal of Zhengzhou University:Natural Science Edition)
年 卷 期:2021年第53卷第3期
页 面:15-22页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家重点研发计划项目(2018YFC0830202) 北京市自然科学基金项目(4204100) 北京市教育委员会科技计划一般项目(KM202111232003) 北京信息科技大学“勤信人才”培育计划
主 题:文本分类 BERT模型 XGBoost模型 航天科技 开源情报
摘 要:航天科技开源情报文本内容较长且含有大量专有名词,影响了情报分类的效果,为了提升相关情报的分类准确率,提出一种基于BERT与XGBoost融合模型的航天科技开源情报分类算法。首先通过BERT模型的深度结构提取情报中的关键特征,然后利用XGBoost模型取代BERT最后的输出层,并依据BERT提取到的关键特征对相关情报进行分类。为了验证算法的有效性,设计了与TextRCNN、DPCNN等部分主流语言模型的对比实验,实验结果表明该算法在航天科技开源情报分类中的准确率与TextRCNN、DPCNN模型相比,分别提高了1.9%、2.2%,证明了该算法在相关分类任务中的有效性。