基于农业网络信息分类的热词自动提取方法
Automatic Extraction Method of Hot Words Based on Agricultural Network Information Classification作者机构:中国农业大学信息与电气工程学院北京100083 北京农信通科技有限责任公司北京100081
出 版 物:《农业机械学报》 (Transactions of the Chinese Society for Agricultural Machinery)
年 卷 期:2018年第49卷第7期
页 面:160-167页
核心收录:
学科分类:0710[理学-生物学] 081203[工学-计算机应用技术] 08[工学] 0802[工学-机械工程] 0835[工学-软件工程] 0801[工学-力学(可授工学、理学学位)] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家高技术研究发展计划(863计划)项目(2013AA102306) "十二五"国家科技支撑计划项目(2012BAD35B06)
主 题:农业网络信息 农业舆情监测 热词 多标记分类 热度计算
摘 要:热词提取对于监控和分析农业舆情具有重要意义,目前已有一定研究基础,但仍存在针对性差等问题,无法满足农业领域不同产业用户群的个性化需求,为此,提出一种基于农业网络信息分类的热词自动提取方法。首先采用多标记分类算法对文本语料进行分类,按分类类别构建语料库,然后采用基于信息熵的方法对每个类别分别提取热词候选词,最后采用基于时间变化的方法进行候选词热度计算,根据候选词热度排序结果得到热词。本文抽取农业网站上的15 354条文本进行实验,结果表明,热词提取准确率达到0.9以上,能够较高质量地提取农业热词,为不同农业用户群体发现和分析产业热点提供帮助。