面向呼叫中心话音服务质量监控的关键词检出技术研究与应用
作者单位:浙江工商大学
学位级别:硕士
导师姓名:厉小军
授予年度:2013年
主 题:关键词检出 声学模型 呼叫中心 话音服务质量评测 Sphinx-4
摘 要:随着国民经济的飞速发展,企业与客户之间的互动日益频繁,作为两者之间沟通桥梁的呼叫中心已经成为企业运营不可缺少的一部分。话音服务质量的监控和保证是呼叫中心管理工作中的重中之重。目前面向呼叫中心的话音服务质量监控还处在低效的人工模式监控。单一的人工监控模式已经不适于应用在当前以高量级增长的呼叫中心业务监控系统中。正是基于上述背景本文在原有评测指标的基础上利用关键词检出技术实现机器自动检测,然后对于检出的话音关键词信息设计了一套评测算法用于最后的话音服务质量评分。根据这个解决方案本文设计开发了一个基于关键词检出的话音服务质量监控应用系统。 本文首先介绍了关键词检出系统的基本架构和相关技术模块。一个关键词检出系统主要由模型训练和识别匹配这两部分构成。关键词检出的基本技术模块主要包含:语音预处理,特征提取,声学模型训练,解码和识别等。本文分别阐述了各个技术模块所涉及的技术要点,重点介绍了基于HMM的声学模型的训练。本文利用Sphinx系统的SphinxTrain完成了AN4语料库CD聚类声学模型的训练。 关键词检出引擎的设计实现是本文的主要工作之一。本文在Sphinx-4现有的识别功能模块的基础上设计了填充模型数据结构,即语法识别网络,基于该网络实现了关键词检出。填充模型数据结构将节点定义为初始节点、终止节点、关键词节点和NULL语法节点。通过这4种节点创建识别网络。其中NULL是Sphinx中特殊的语法结构,它可以自动匹配关键词表外的任意词,适用于递归的语法结构。当采用AN4声学模型作为关键词检出引擎模型对引擎进行性能测试时,实验表明:用8个高斯混合数的声学模型作为引擎模型,引擎在虚报指数较低的情况下有较好的识别率和正确率,性能良好。此外,本文还测试了用WSJ大词汇量声学模型作为引擎模型时引擎的性能,实验表明:基于WSJ声学模型的引擎识别性能良好,可以满足大词汇表识别检出。 本文设计了一套基于关键词信息通用的话音服务质量评测指标体系,并设计了评测算法集成到系统,实现话音服务质量监控的准确化和自动化。本文开发的话音服务质量监控系统基于关键词检出技术以实现评测呼叫中心话音服务质量情况,系统分为后台关键词检出引擎和前端的智能交互平台。系统可集成到现有的呼叫中心系统以实现协同操作。