视频文本提取技术研究及在虚拟卡拉OK中的应用-南通市图书馆

文献详情 >视频文本提取技术研究及在虚拟卡拉OK中的应用收藏

视频文本提取技术研究及在虚拟卡拉OK中的应用

作者：王琦

作者单位：杭州电子科技大学

学位级别：硕士

导师姓名：陈临强

授予年度：2011年

学科分类：08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]

主题：视频检索文字检测视频文本定位文本分割文字识别背景建模

摘要：视频中的文字包含了丰富的语义信息,文字提取对于基于视频内容的分析、检索等研究领域具有重要作用。如果能自动地将视频文字检测、分割、识别出来,则对视频高层语义的自动理解、检索是非常有价值的。视频文本不同于普通扫描文档可以直接使用OCR识别提取,视频文本在大小、形状、颜色等属性上存在很大的差异,多数情况下文字还处于复杂背景之中,这些都成为文字提取过程很大中的阻碍。如何利用视频文本的特性,在已有研究的基础上更好地将文本提取出来,成为了本文研究的重点。对于视频中可能存在几种颜色字幕的情况,本文提出了一种综合利用文字颜色、边缘、几何特征的方法。首先采用梯度法检测连续多帧文字位置,然后将位置映射到原始视频帧中,这样可以获取大量准确可靠的文字颜色信息,根据这些颜色信息,采用GMM (Gaussian Mixture Model)对颜色建模,在后续帧中利用模型提取文字颜色层,同时更新模型。根据视频具有的时间冗余性,提出了“与掩码图的方法判断有无新的文本对象产生。该方法综合利用了文字的多种特性,在视频中背景与文字颜色差距较大时能有效提取文字。针对视频中的静止文字时间和空间上的冗余特性,本文提出了一种检测-跟踪的方法。首先对视频帧进行边缘检测获取文字区域,然后以文字区域的边缘位图为匹配特征跟踪文字,精化检测结果,实现了对文字对象快速有效的定位。同时文字跟踪也避免了对每帧进行分割、识别,减少了计算量。在分割阶段,针对视频文本的分辨率较低的情况,先是采用了多帧融合方法增强文字区域然后进一步对文字进行插值放大。本文设计了一个虚拟卡拉OK系统,将卡拉OK视频文字提取与人物检测联系起来。在卡拉OK视频文本定位中,采用了小波变换与形态学相结合的方法。对视频帧进行Harr小波分解后开、闭操作分解子图,选择了在最大程度上去除了背景噪声的斜向高频带映射到原始视频中定位字幕区域。该方法不敏感于颜色,能更好的定位卡拉OK文本。在人物分割上,选用了单高斯背景建模的背景差法。最后将提取的文本和分割出的人物与任意选取的场景中进行图像融合,可对人物边缘做模糊化处理以达到较好的视觉效果。本文提出的两种方法都选用了几种不同类型的视频进行了性能测试,实验结果表明这几种方法都具有较高的检测性能,能够较好地提取不同类型视频中的文字。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

视频文本提取技术研究及在虚拟卡拉OK中的应用

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

视频文本提取技术研究及在虚拟卡拉OK中的应用

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：