咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >汉越双语新闻差异性摘要方法研究 收藏
汉越双语新闻差异性摘要方法研究

汉越双语新闻差异性摘要方法研究

作     者:叶雷 

作者单位:昆明理工大学 

学位级别:硕士

导师姓名:余正涛

授予年度:2018年

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:跨语言分析 新闻文本 新闻摘要 差异性摘要 汉语 越南语 

摘      要:随着“一带一路倡议的提出,中越两国的交流变得愈发密切。关于一些重要的新闻事件,两国媒体都会发布大量的汉语新闻和越南语新闻。及时有效地获取双语新闻的主要内容及双语新闻之间的不同点具有重要意义。本文研究汉越双语新闻的差异性摘要问题,主要完成了以下研究工作。1.基于维基百科训练汉越双语词向量。使用维基百科语料进行训练,得到具有较好语义信息的单语词向量,利用已有方法把两份单语词向量投影到同一个第三方空间,投影后的向量可以用于计算汉越词汇间的相关程度,可以作为双语文本分析的资源。实验证明得到的双语词向量具有较好的效果。2.多特征融合的汉越双语新闻摘要方法。针对双语文本难以同时分析以生成双语摘要的问题,提出了一种多特征融合的汉越双语新闻摘要方法。首先,该方法根据新闻文本的特点,借助双语词典和双语词向量,分析句子间的新闻要素共现程度及句子间的相似度;然后,将这两种特征融入句子无向图,利用TextRank算法对句子进行排序;之后,结合句子的位置特征对排序结果进行调序;最后,挑选重要句子并去除冗余生成摘要。在汉越双语新闻文档集上进行了摘要实验,结果表明提出的方法取得了较好的结果,具有有效性。3.基于双语主题聚类的汉越新闻差异性摘要方法。为了获取汉越双语新闻的不同点以生成差异性摘要,提出了一种基于双语主题聚类的汉越新闻差异性摘要方法。该方法从主题层面描述汉越双语新闻的差异。首先,利用LDA模型从双语新闻中抽取主题;然后,借助双语词向量对双语主题进行聚类,把主题分为共有主题和特有主题;最后,利用特有主题抽取汉语句子和越南语句子生成差异性摘要。实验结果表明,提出的方法在汉越双语新闻的差异性摘要任务上取得了较好的结果。4.面向汉越双语新闻的差异性摘要原型系统。开发了一个面向汉越双语新闻的差异性摘要原型系统。该系统从互联网上收集汉越双语新闻,对关于同一事件的双语新闻进行分析,生成汉越双语新闻的普通摘要和差异性摘要,并向用户展示摘要结果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分