咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于微博文本的emoji表情推荐 收藏
基于微博文本的emoji表情推荐

基于微博文本的emoji表情推荐

作     者:陈聪 

作者单位:南京审计大学 

学位级别:硕士

导师姓名:赵彦勇

授予年度:2023年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:微博文本 emoji表情 情感分析 词向量 LSTM 

摘      要:微博作为国内自媒体与社交动态发布的主流网络平台,提供了大量现成的中文语料库。Emoji表情是使用在网页和聊天中的形意符号,微博emoji表情与中文文字同时发布,对于一段已发布的微博博文,emoji往往嵌入在文字当中,用以增强文字所要表达的情感。本研究以微博作为内嵌emoji表情的中文文本语料库,挖掘语料库中的文本情感信息,利用深度学习方法,建立其和和emoji表情之间的联系纽带,通过中文文本,在微博自带的emoji库中推荐最贴合该文本的emoji表情。本研究通过Python+requests创建本地与微博服务器之间的连接会话,根据微博博文对应的url链接,获取到相应的微博博文数据。对于爬取到的文本数据先用词向量模型进行数据化处理,将文本数据转变成利于计算机处理的数字化数据。对数据中的emoji表情做处理,将其设置成标准的标签类别,对于已经存储于临时文件中的数据集(特征+标签),将数据集按照比例划分成训练集和测试集。本研究选择LSTM作为目标模型。模型输入是长度固定的向量序列,输出是预测的emoji表情的类别。作为模型实验结果的对比,将逻辑回归模型和随机森林模型作为基准模型,用于实验效果的对比和实验数据的分析。最终LSTM模型的TOP10准确率达到0.72,而逻辑回归与随机森林的TOP10准确率均小于0.6;LSTM模型的三种精确率分别为0.22、0.37和0.30,每种精确率均高于其余模型的实验结果;LSTM模型的召回率和F1 score也明显优于随机森林与逻辑回归。最终,本研究实现了基于文本推荐emoji表情。LSTM模型相对于其他两类模型,在Top K准确率,精确率,召回率,以及F1 Score四个评价指标上存在较大甚至显著的优势。其中,在Top K准确率指标上,相较于逻辑回归模型和随机森林模型提升至少50%以上。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分