咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >视频文本提取技术研究及在虚拟卡拉OK中的应用 收藏
视频文本提取技术研究及在虚拟卡拉OK中的应用

视频文本提取技术研究及在虚拟卡拉OK中的应用

作     者:王琦 

作者单位:杭州电子科技大学 

学位级别:硕士

导师姓名:陈临强

授予年度:2011年

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

主      题:视频检索 文字检测 视频文本定位 文本分割 文字识别 背景建模 

摘      要:视频中的文字包含了丰富的语义信息,文字提取对于基于视频内容的分析、检索等研究领域具有重要作用。如果能自动地将视频文字检测、分割、识别出来,则对视频高层语义的自动理解、检索是非常有价值的。视频文本不同于普通扫描文档可以直接使用OCR识别提取,视频文本在大小、形状、颜色等属性上存在很大的差异,多数情况下文字还处于复杂背景之中,这些都成为文字提取过程很大中的阻碍。如何利用视频文本的特性,在已有研究的基础上更好地将文本提取出来,成为了本文研究的重点。 对于视频中可能存在几种颜色字幕的情况,本文提出了一种综合利用文字颜色、边缘、几何特征的方法。首先采用梯度法检测连续多帧文字位置,然后将位置映射到原始视频帧中,这样可以获取大量准确可靠的文字颜色信息,根据这些颜色信息,采用GMM (Gaussian Mixture Model)对颜色建模,在后续帧中利用模型提取文字颜色层,同时更新模型。根据视频具有的时间冗余性,提出了“与掩码图的方法判断有无新的文本对象产生。该方法综合利用了文字的多种特性,在视频中背景与文字颜色差距较大时能有效提取文字。 针对视频中的静止文字时间和空间上的冗余特性,本文提出了一种检测-跟踪的方法。首先对视频帧进行边缘检测获取文字区域,然后以文字区域的边缘位图为匹配特征跟踪文字,精化检测结果,实现了对文字对象快速有效的定位。同时文字跟踪也避免了对每帧进行分割、识别,减少了计算量。在分割阶段,针对视频文本的分辨率较低的情况,先是采用了多帧融合方法增强文字区域然后进一步对文字进行插值放大。 本文设计了一个虚拟卡拉OK系统,将卡拉OK视频文字提取与人物检测联系起来。在卡拉OK视频文本定位中,采用了小波变换与形态学相结合的方法。对视频帧进行Harr小波分解后开、闭操作分解子图,选择了在最大程度上去除了背景噪声的斜向高频带映射到原始视频中定位字幕区域。该方法不敏感于颜色,能更好的定位卡拉OK文本。在人物分割上,选用了单高斯背景建模的背景差法。最后将提取的文本和分割出的人物与任意选取的场景中进行图像融合,可对人物边缘做模糊化处理以达到较好的视觉效果。 本文提出的两种方法都选用了几种不同类型的视频进行了性能测试,实验结果表明这几种方法都具有较高的检测性能,能够较好地提取不同类型视频中的文字。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分