多视角的唇动身份识别研究
作者单位:哈尔滨工业大学
学位级别:硕士
导师姓名:姚鸿勋
授予年度:2009年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:基于多视角的唇动的身份识别技术,是多视角人脸识别和正面唇动身份识别的生物特征识别技术的延伸和组合。说话时的唇动信息,既体现了说话人嘴唇的固有生理特点,也反映了运动变化的个性行为特点,为进行身份识别提供了充分的有用信息。而多视角的唇动身份识别不仅补充了单一视角的缺陷,同时消除了对使用者造成的视角的限制。 作为研究的基础,本文首先构建了基于多视角的唇动识别语料库(HIT-AVDB-II),该语料库录制于不同的光照条件下,涵盖多种语言、多种背景等。 在嘴唇检测方面,我们针对多视角的特点,采用自适应的颜色空间转换和水平集方法相结合的方法,提高了轮廓获取的准确度。为了解决视频分割不同步的问题,采用了曲线的面积覆盖和的方法,进行唇动曲线同步。 在特征提取和模型构建上,首先用DCT和SCHMM相结合的方法。针对图像的嘴唇部分进行DCT变换,采用低频分量构建“eigenlip,然后使用SCHMM构建说话人模型。实验结果表明直接使用图像表观特征进行身份识别时,图像的信息贡献度随视角的变化而变化。 然后使用嘴唇运动轨迹的作为特征,通过嘴唇轮廓的运动曲线和曲线的高阶信息的结合,利用曲线相关度模型,分别针对文本有关和文本无关进行身份识别。 最后我们引入了时空体的概念,从时间轴和嘴唇上下运动方向轴获取时空体切片,用直方图提取全局特征,进行直方图特征连接,模型构建采用SVM方法。