基于蒸馏神经网络的中文地址抽取关键技术研究与实现
作者单位:北京邮电大学
学位级别:硕士
导师姓名:周锋
授予年度:2023年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:从口语对话中进行细粒度的地址实体识别是一项重要且具有挑战性的任务。在客服多轮对话上下文中分布有多种类型的地址实体,对话场景下的地址抽取任务是数据分析、相关推荐等基于位置的客户服务的重要基础工作之一。现有的工作通常将这个问题公式化为一个细粒度的命名实体识别任务。细粒度的命名实体识别任务往往需要大量精确的有标数据,而中文地址抽取所需要的有标注训练数据需要较高的标注成本。大规模的完整标准地址可以很容易地从网页上爬取,在有限人工的基础上,采用地址分割的方法对地址进行细粒度的标注并进一步处理,可以有效解决少标注样本的问题,帮助模型更好地训练。为了进一步提高模型的泛化能力,本研究运用知识蒸馏方法进行知识迁移,模型可以学习到更为广泛的包含地址信息的知识。基于以上,设计并实现了地址抽取的地址抽取可视化系统。本文的主要工作内容如下:1.针对缺乏包含地址实体的有标注对话数据集,提出了一种针对有标注含有地址实体的多轮对话的数据扩充方法,通过数据扩充方法,构造一个对话上下文场景的地址实体数据集,有效解决了样本缺失问题,用于之后模型的训练。2.提出了基于知识蒸馏技术的神经网络算法,应用迁移学习的思想来构建神经网络模型,进一步提升细粒度地址实体识别任务模型的效果,提高模型的泛化能力。大量的实验结果表明本文提出的方法具有较高的实用价值。3.基于以上提出的方法,本文根据提出的算法构建了一个地址抽取可视化系统。系统实现了对话场景下地址实体的在线抽取,并通过交互地图对完整的地址抽取结果进行了可视化的展示。对系统进行了测试,测试结果表明,该系统可以对对话中地址进行有效地抽取并实现可视化功能。