咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >在线社会网络下的垃圾信息过滤技术的研究 收藏
在线社会网络下的垃圾信息过滤技术的研究

在线社会网络下的垃圾信息过滤技术的研究

作     者:黄兴凤 

作者单位:上海师范大学 

学位级别:硕士

导师姓名:陈海光

授予年度:2015年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:机器学习 垃圾词库 标注模型 贝叶斯定理 

摘      要:随着互联网技术的迅速发展,社交媒体成为了最活跃的社交平台,为广大网民提供了快捷、良好的沟通方式。虽然社会网络的迅速发展给用户的互相沟通带来了便利,但是另一方面,弊端也随之而来,网络上大规模出现的垃圾信息阻碍了人们的正常交流。垃圾信息不但会被一些投机取巧的分子利用来传播虚假的消息、恶意的链接,而且会消耗大量的网络资源,损害了网络用户的利益。随着垃圾信息的迅速膨胀,迫切需要一种技术来净化网络空间,创造健康良好的社交体系,因此,垃圾信息过滤技术的研究成为了学者们普遍关注的问题。在垃圾微博信息过滤方法中,机器学习技术因为准确率高、成本低的特点,受到了广大研究者的青睐,成为了解决垃圾信息过滤的主要方法。但是考虑到使用机器学习时,需要大量的训练数据,而这些需要人工去标注,是一项耗时耗力的工作。基于此项,本文提出了通过匹配建立好的动态垃圾词库来标注微博信息。本文的工作主要包括:1、详细介绍了社会网络平台下的垃圾信息过滤状况,对社会网络进行了概述,主要包括社会网络的定义、发展和分类,介绍了国内外垃圾信息过滤的现状以及常用的垃圾信息过滤的方法,对垃圾信息的种类和垃圾微博的定义进行了简单的介绍2、基于统计学的机器学习方法过滤成为现在主流的垃圾信息过滤方法。基于机器学习的特点,有监督学习的机器学习需要大量的标注好的训练数据,所以在本文中,我们提出了基于动态垃圾词库的微博信息标注模型,对所提出的模型画出了流程图、对各个子模块进行了详细的介绍,最后提出了一个基于贝叶斯定理的建立垃圾词库的算法3、详细的介绍了垃圾词库建立中所要用到的技术,在文章的最后我们应用建立好的垃圾词库去标注微博信息,通过实验证明了基于提出的垃圾词库构造的标注模型具有很好的效果文中主要创新工作包括:(1)提出了基于动态垃圾词库的微博信息标注模型,通过该模型可以对未知的微博信息自动进行标注,省去人工标注的时间和精力(2)提出了基于贝叶斯定理建立垃圾词库的算法,并通过实验验证了算法的可行性和正确性(3)在提出的算法基础之上加入了校验环节,使得通过改进的算法建立的垃圾词库具有更好的准确性

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分