咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >大数据环境下的用户信息抽取与分析 收藏
大数据环境下的用户信息抽取与分析

大数据环境下的用户信息抽取与分析

作     者:王凯强 

作者单位:北京邮电大学 

学位级别:硕士

导师姓名:高飞

授予年度:2018年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:关系抽取 远监督 语义相似 多源特征 人才圈 

摘      要:随着信息化的高速发展,具有重要价值的知识显式或隐式地分布在海量数据中,影响了人们获取知识的效率。其中用户的信息对于垂直搜索、自动问答及个性化推荐具有重要的商业价值,但是这些信息主要以非结构化的文本形式存在。面对海量数据,如何把这些数据转化为结构化数据,更加准确地抽取目标信息,并基于这些信息进一步研究成为当前的热点研究方向。因此,本文主要从不同角度研究了大数据环境下用户的信息抽取并进行了进一步分析。首先,本文提出了从用户非结构化文本中准确地抽取实体关系信息的方案。该方案利用互动百科,构建了人物领域知识库,并基于远监督进行文本回标,通过关系关键词扩展及语义相似度计算优化训练样本,并基于双向LSTM和CNN混合模型,融入依赖关系进行实体关系抽取,提高了对人物领域关系抽取的准确性。然后本文从多源特征的角度,提出了对社交网络中用户信息抽取的方案。该方案基于微博的用户数据,从特征工程入手,从不同角度提取用户的特征,主要包括数值特征、主题特征、文本特征以及根据社交网络提取并优化的用户网络特征,进而将用户的信息抽取转化为一个多分类问题,并基于半监督学习的级联模型进行了用户职业关系抽取,提高了社交网络环境下关系抽取的准确性。最后,本文在用户职业关系抽取的基础上设计了人才圈发现框架。该框架从基本用户特征、时空特征、语义特征、文本特征、网络特征等多个维度对用户进行相似度计算,同时应用逻辑回归算法确定不同类型特征的权重,进而设计了用户综合相似度计算的方法,并应用DBSCAN算法优化K-means算法初始点的选取,提高人才圈发现的准确性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分