咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于领域实体的多源信息专业领域热点探测模型研究 收藏
基于领域实体的多源信息专业领域热点探测模型研究

基于领域实体的多源信息专业领域热点探测模型研究

作     者:黄菡 

作者单位:中南财经政法大学 

学位级别:硕士

导师姓名:金大卫

授予年度:2020年

学科分类:12[管理学] 120202[管理学-企业管理(含:财务管理、市场营销、人力资源管理)] 0202[经济学-应用经济学] 02[经济学] 1202[管理学-工商管理] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:命名实体识别 主动学习 热点探测 热度评价 多源信息 

摘      要:把握研究领域的热点发展态势,了解领域的科研现状是科技管理决策者及各领域研究者的基本需求。领域的科技文献、有关部门发布的行业公报等是研究者们获取信息的主要来源,通过分析近期的研究成果和政策导向,能帮助研究者们及时掌握领域的研究热点和前沿问题,帮助研究者了解领域的发展态势,进而帮助研究者寻找研究问题及问题的解决思路或方案,从而推动领域的进一步发展。互联网的飞速发展拓宽了各行各业的信息来源渠道,丰富了信息类型,促进了信息数量的爆炸式增长,学术科研领域也是如此。数字学术出版物及互联网行业信息的飞速增加为研究者们的科研工作提供更多的参考依据的同时也带来了诸多问题,研究者如何高效地从海量数据中获取有效知识,快速了解领域前沿问题,跟进研究热点便是其中亟待解决的问题之一。为解决这一问题,本文借助信息化手段,通过多种文本分析技术,开展了基于领域实体的多源信息专业领域热点探测模型研究。首先,将主动学习算法与条件随机场模型结合,提出了一种能降低人工标注成本的领域命名实体识别模型AL-CRF。然后,基于领域命名实体识别,将政府公报、行业新闻、专业机构在社交媒体发布的行业动态及科技文献等多源信息作为数据源,综合考虑内容及传播等两个层面要素,通过特征词提取、候选热点识别、热度计算和热度评价等步骤,完成了专业领域热点探测,进而挖掘了专业领域热点变化趋势。最后,本文通过2018年1月至4月信息与通讯技术(Information and Communication Technology,ICT)领域的多源数据对本文模型进行了实证实验,验证了本文模型对专业领域热点的探测效果。本文的创新点主要包括三个方面:1)在少量标注工作量的情况下实现了领域实体识别。现有的命名实体识别方法大多都需要大量标注数据作为训练数据,这一点对于专业性强的医疗、法律等领域来说实施难度大。本文将主动学习算法应用到命名实体识别中,在不降低模型准确率的情况下,降低了对低质量样本进行人工标注的工作量;2)依据多源信息,针对多指标进行领域热点识别。本文的数据来源除传统方法中的科技文献外,还包括政府公报与行业新闻、专业机构在官网、微博、微信上发布的动态等互联网信息,数据来源更加丰富,实时性更强。同时,本文的热点识别流程以领域实体为基础,使识别出的热点更加符合领域特征。进一步,采用了TFIDF和词增长速度两种算法来进行热点识别,使得本文方法对于突发热点的识别效果更好;3)构建了基于内容层面和传播层面的热度评价体系。本文综合筛选了以往学者在热点热度计算方面的研究成果,并加入了Burst指数用于衡量一个时间段内热点主题的热度,构建了包括内容层面和传播层面的热度评价体系,通过模糊层次分析法对识别到的热点进行了热度评价与排序。总体来说,本文提出的热点探测模型结合当前的时代背景,除科技文献信息外更考虑了政府公报、行业新闻、专业机构动态等互联网信息,同时从多个指标维度综合评价热点热度,有助于科研人员实现对于专业领域内研究热点变化趋势和大众传播发展态势的实时、多维的探测与分析。进一步,本文在热点识别过程中,以领域实体为基础,使其更适用于专业领域热点的探测,对于领域科研工作者和科技管理决策者都有很重要的指导意义。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分