咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于文本挖掘的汽车评论情感分析 收藏
基于文本挖掘的汽车评论情感分析

基于文本挖掘的汽车评论情感分析

作     者:刘亚玲 

作者单位:湘潭大学 

学位级别:硕士

导师姓名:王文强

授予年度:2021年

学科分类:0202[经济学-应用经济学] 02[经济学] 020205[经济学-产业经济学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:评论文本 情感分析 Stacking集成 Word2vec 

摘      要:截至2021年3月,国内汽车保有量接近三亿辆,汽车正由原来的资产性商品逐渐向消费型商品转型。对不同类型的消费者来说,他们对新车空间、动力、操控等方面的要求不尽相同,往往在价格范围内选中心仪的几款进行比较。对汽车厂商来说,从网站大数据了解消费者的喜好,未来可以侧重于汽车的某些设施,发布更加符合市场需求的车型。因此,对汽车评论进行情感分析可以从海量数据中抓取关键指标,针对不同价格区间的汽车评论生成词云图,体现出正向情感信息与负向情感信息,可以直观了解消费者的真正需求,有助于汽车厂商正确决策,具有较强的现实意义和理论价值。本文从汽车之家官网口碑模块采集了32648条评论数据,进行数据处理,包括去掉重复文本、Jieba分词、去停用词、保留中文和英文文本。然后使用TF-IDF、Word2vec、基尼指数、卡方检验法进行特征提取,比较四种特征提取方法,发现Word2vec在支持向量机、朴素贝叶斯、随机森林、XGBoost这四个分类器上的表现均为最优,说明使用Word2vec提取特征词在一定程度上提升了文本情感分类的准确率。以支持向量机、基于KNN的Bagging方法、Ada Boost、朴素贝叶斯作为基分类器,以逻辑回归作为次级分类器构建Stacking集成模型的F值为0.968。并且在样本数据集上通过其他模型进行情感分析的F值由大到小排列分别是支持向量机、Ada Boost、K近邻算法、朴素贝叶斯。然后在价格(单位:万元)区间(0,10],(10,20],(20,35],(35,50],(50,+∞)中,利用以逻辑回归作为次级分类器构建的Stacking集成模型,对于主流车型轿车和SUV的评论进行分类预测,依据被预测为积极情感与消极情感的评论文本生成词云图识别用户的客观评价,为消费者购车和车企进一步扩大市场提供一定的参考。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分