图片检索在网络敏感信息实时预警系统中的应用
作者单位:南京理工大学
学位级别:硕士
导师姓名:王树梅
授予年度:2012年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:随着互联网技术的不断发展,信息交换和传播的方式也越来越多样化,对于企业来说,需要及时获知网络上与自身有关的敏感信息。“网络敏感信息实时预警系统是针对企业需求开发的一种网络信息审查系统,可以对指定网站上的文本和图片信息进行获取和分析。本文的研究属于系统中的图片搜索模块,在系统的图片库中辨别出公文图片,并使用汉字识别技术识别出标题文本,以进行相应的敏感信息匹配和预警。 本文对公文图片进行标题识别的方法分为图片过滤、提取标题字符和字符识别三个部分。图片过滤是为了在种类繁多的图片中过滤掉不具有公文特征的图片,公文图片的明显特征包括颜色分布特征和红色横杠特征,再加上图片的大小,以这三个特征作为公文图片的判断标准。提取标题字符是从图片中提取出需要识别的单个字符,这是特征提取和识别的先决条件,提取字符可分为:版面分析、字符切分、规范化和细化几个步骤。字符识别是对各个标题字符进行特征提取和识别,这个部分又分为特征提取和识别器的设计两个步骤,识别器包括粗分类和单字识别,采用最近距离分类法进行多级分类和计算,以得到最后的识别结果。 将本文介绍的图片检索和识别方法应用到“网络敏感信息实时预警系统中,使系统在检索文本信息的同时,还具有了对网站上的公文图片进行检索和预警的功能,实际应用中的状况表明,本文的方法能够较好地检索出公文图片并识别标题信息。