咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于改进的Boosting的跨语言情感分类方法研究 收藏
基于改进的Boosting的跨语言情感分类方法研究

基于改进的Boosting的跨语言情感分类方法研究

作     者:董双双 

作者单位:河北工业大学 

学位级别:硕士

导师姓名:李娜娜

授予年度:2018年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:情感分类 跨语言 Boosting 迁移学习 K近邻 

摘      要:情感分类旨在利用计算机技术充分挖掘和判断文本发布者的情感态度,为决策者提供有价值的参考信息。但相关技术高度依赖训练语料的质量和数量,而国内外有效的高质量分析语料、情感词典资源等分布不均的现状使得跨语言情感分类研究应运而生。研究者们对跨语言情感分类技术做了很多努力,但仍存在如下问题:实现语言映射时忽略了词语对所在语境和所属领域的依赖性;主题迁移和翻译错误可能会导致数据分布存在差异;将源语言实例全部应用于训练分类器,这些源实例可能会不同于目标语言的分布。针对上述现有研究存在的问题,本文的研究工作主要包括以下内容:1)将迁移学习技术与Boosting算法相结合,提出ClAdaBoost算法并应用于跨语言情感分类研究中。首先在由源语言和目标语言组成的联合训练集上训练获得初始弱分类器,然后根据在目标语言训练集上计算的错误率对样本权重进行更新,重新训练获得新的弱分类器,如此迭代,最后将多个弱分类器按照一定的规则相结合,从而构造了一个对目标语言友好的强分类器。2)在上述改进算法的基础上提出ClKAdaBoost算法,通过引入K近邻算法对源语言训练实例进行筛选。由于在上述改进的Boosting算法(ClAdaBoost)中,错误预测实例的权重将会被提高,以便下一个基分类器可以学习先前未获得的知识。但在迁移学习背景下,尚未正确预测的源实例可能远离目标域,而增加这些实例的权重可能会误导基分类器学习过多的源噪声。因此,本文在构造分类器之前采用K近邻算法对源语言训练数据进行筛选,试图挑选源语言中那些对学习目标任务“有用的实例,然后基于Boosting技术形成一个具有高准确率的强分类器。3)将本文提出的两种算法在数据集NLP&CC 2013上与多种基准算法及原有算法进行对比,实验结果表明:与未使用迁移学习技术的算法相比,本文所提出的第一种算法ClAdaBoost有效地改善了分类性能;第二种算法ClKAdaBoost比ClAdaBoost算法具有更高的分类正确率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分