咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >多轮对话语料构建中的离群对话分析 收藏
多轮对话语料构建中的离群对话分析

多轮对话语料构建中的离群对话分析

作     者:郑桂东 

作者单位:哈尔滨工业大学 

学位级别:硕士

导师姓名:刘铭

授予年度:2018年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:短文本处理 深度学习 主题分割 注意力机制 迁移学习 

摘      要:近年来,伴随着互联网计算机技术的高速发展,各大领域技术开始聚焦人工智能(Artificial Intelligence)技术,引领了一波人工智能信息时代的进步。而智能对话系统作为人工智能中的一个重要表现形式,其引起了工业界以及学术界的广泛关注。然而,构建多轮对话聊天系统需要高质量的海量口语对话语料,以便于训练智能对话系统中的口语语义理解模型等关键技术。对于对话系统中的口语对话语料,一般是从社区论坛(如贴吧、微博等)中获取并且加工而成。尽管社区论坛对话资源丰富,但这些对话往往包含了大量如游戏、购物广告等垃圾信息。此外,一些涉及辱骂等一些敏感话题也需要清除。而离群对话分析为多轮对话语料构建中的重要一环,本文从对话的主题方向切入,主要为分析多轮对话语料中偏离文档主题的句子,进而构造出一种高质量的纯净对话语料库。对于论坛文本,其形式往往长度短小,且内容较少、实时性强,传统方法收效见微。针对上述问题,本文运用了现在广为流行的深度学习技术来对社区对话语料来进行处理,本文主要研究内容包括以下几个方面:(1)首先对网络论坛数据判别文本是否含有偏离主题的句子,然后再从含有偏离主题的对话中定位出离群的句子,此外,本文使用主题分割方法来对多轮对话切分成各个独立的子主题相关对话。(2)对于判别短文本对话中是否包含偏离主题句子时,使用了人工构造对话训练数据分别来对层次门限网络(HGRU)以及层次门限-卷积网络(HGRU-CNN)进行训练,之后在少量人工标注的数据集上进行测试。(3)在判别出包含偏离主题的对话中,本文提出了基于主题-对话匹配门网络以及融合注意力机制的模型来对对话的每一句进行判定,定位出偏离主题的句子,并将其去除。(4)运用了基于主题分割技术的对话划分,使用端到端的网络结构来对对话文本进行切分,使切分后的每一个短文本均关于各个子主题;本文使用了TDT2语料库来对模型进行训练,并将该模型迁移到论坛对话文本中,实验结果经构造的验证集测试,符合预期效果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分