1. 引言
1.1 课题背景及意义
图像作为一种重要的信息载体,具有直观、内容丰富、无语言和便于国际交流等特点,是组成多媒体信息的重要内容。随着信息化多媒体技术、Internet网络的迅速发展,图像信息的使用逐渐渗入到社会的各行各业和人们生活的每一个角落,图像已成为大众化数字信息的一种重要形式,图像信息资源的处理显得十分重要。计算机图象处理是一门迅速发展的新兴学科。它的目的是在计算机上实现和强化人的视觉以及人对视觉信息的加工处理能力。几十年来它已广泛应用于各行各业,取得了丰硕的成果[1]。在许多领域的实际应用中对计算机图象处理提出更高的要求,进一步要求对图象的局部理解处理和具体分析。这是指用计算机图象技术辅助人去理解图象或直接用机器代替人去理解图象,它形成了计算机图象处理的一个重要分支,称为计算机视觉。计算机视觉技术可用于图象理解、景物分析等,它按人的要求对输入的图象给出图象总体和局部的理解。通常能用计算机的方法描述其局部以及相关联的总体,并进一步去控制图象中某些部分。于是对图象的理解和分析包括了把图象中感兴趣的物体分割出来、检测此物体各项特征并用某种方式描述它,进一步还包括了对图象内容的分类、识别和理解[2]。图象分割是把图象中感兴趣的区域与图象中各种物体目标相对应。全面理解图象中所包括的全部信息应包括分区分割和对各区的描述。目前可能理解图象的方法只限于信息中部分特征,如灰度差别、局部纹理差别、彩色差别、形状差别、局部统计特征或局部区域的频谱特征的差别等成熟技术表征的特征[3]。
电力设备种类繁多,行业特点明显。近年来有些电力部门在电力设备的管理方面也采用了对设备拍摄数字图像记录设备信息的管理形式,针对存在问题的分析,根据实际需求,变电站设备信息管理系统以覆盖电力系统变电站设备信息为基本考虑,以信息资源网络化管理为重要手段,以即时图片信息为主体,兼顾功能的扩充和完善,以提高变电站设备信息管理水平为主要目的[4]。
电力设备图像检索系统作用主要有:(1)从拍摄的图像中分辨设备的类别,判断设备的运行状况,观察设备的新旧程度;(2)前后对比使用,将同一设备的历史图像
第 1 页 共 46 页-
和当前图像进行对照,观察变化情况;(3)从图像的附加信息中得知设备的型号、所在地点、使用年限等参数。最初这些图像以文件的形式存储在电脑硬盘上,管理者只能逐个浏览,随着图像数量的逐渐增多,从中寻找目标图像非常困难,于是将设备图像及其参数信息一起存储到图像数据库中[5],如果能从容量巨大、品种繁多的电力设备图像数据库中快速检索出目标设备图像,则可以大大提高电力部门的工作效率。
1.2 图像检索技术的国内外现状
传统的图像检索技术是基于文本的检索技术,其检索信息来源于与图像相关的文本信息,如图像的获取日期、文件名、标引词等。换句话说,图像库只有经过标引之后才能成为可检索信息。于是,对图像的查询变成了基于文本的查询,这种方法的特点是简单易行,但存在几个根本的问题影响对图像信息的有效使用。
首先,文字描述只是一种特定的抽象,图像所表现出来的丰富内容是很难用文字表现出来的。图像的获取日期、文件名、标引词等虽然可以提供有用的索引线索,但都不能完全抓取图像的视觉信息。事实上,图像内容带给人的信息是多方面的,人们是通过图像的内容特征比如颜色、纹理、目标形状、分布位置等来记忆图像的,没有人是仅借助标号、文件名来记忆图像的[6]。
其次,图像标引存在很大的主观性,不同的观察者或同一个观察者在不同条件下对同一幅图像有不同的描述,因而文本标注不够客观,可能会出现用户输入的关键词和数据库中的关键词不一致或该关键词根本不存在的情况,这将造成查询的失败。
另外,目前对图像的标引仍由人工完成,随着图像数据的来源越来越广泛,数量越来越大,这种费时费力的方法犹如杯水车薪,不能满足日益增长的需要。
为了解决以上问题,就需要全面、客观地来提取图像内容。事实上,人们利用图像不仅仅是利用其视觉质量,更重要的是利用其视觉内容,所以只有根据内容进行检索才可能有效地获得所需的视觉信息。例如,商标是否雷同主要看商标的图案,仅仅靠商标的文字标签是不能解决问题的,把商标的图案信息提取出来才可能有效地比较不同的商标[7]。
由上可见,只有根据图像的内容来检索,才可能有效地获取所需要的信息,同
第 2 页 共 46 页-
时只有在掌握图像内容的基础上,图像数据库中的信息才可以得到有效的管理。基于内容的图像检索技术就是在这样的需求下被逐步重视起来的。基于内容的图像检索技术涉及数学、心理学等学科,涉及图像处理、计算机、数据库等信息技术,是一个极富挑战性的研究课题。
CBIR是一门有关信息检索的新技术,基于内容的图像检索是图像特征相似性匹配检索,系统内的图像标识是图像特征描述,检索线索是一目了然的图像示例或图像示例特征描述,输入为图像示例,输出为所有与示例特征相同或相近的图像,列表供用户选择,把一般用户难以完成的图像特征描述、提取、系统解决,避免了“似是而非”的关键词匹配输入及由此产生的检索结果[8]。自上世纪九十年代以来,基于内容的图像检索研究成为一个关注热点,因而出现了许多基于内容的图像检索系统,较著名的有IBM公司的QBIC(Query By ImageContent)系统,VIRAGE系统,VisualSeek/WebSeek,是美国麻省理工学院的Photobook系统等[9]。 (1)QBIC系统
QBIC是IBM Almaden研究中心于90年代开发的,它的成功开发对后来的图像检索技术发展产生了深远影响。QBIC提供了基于颜色特征、纹理特征和形状特征的检索功能。基于颜色特征的查询主要采用颜色百分比查询和颜色直方图查询两种方法;基于纹理特征的查询则综合使用了图像中线条的粗糙性、对比性和方向性三种特征;基于形状特征的查询采用了形状的面积、离心率、主轴方向以及一组变换无关量等描述方法。虽然QBIC系统可以使用多种特征进行检索,但这些特征间是孤立而没有联系的,同时用户使用该系统需要具有图像特征的一些基本知识,这就使得该系统的易用性大打折扣。 (2)VIRAGE系统
VIRAGE提供了4种可视特征检索即颜色、颜色布局、纹理和形状。每种特征被赋予0~10的可权值。用户需要设定一个或多个属性权值来优化检索,要达到最衡度需要反复实验。所以同QBIC系统一样,存在着特征选择盲目,用户不易使用等缺点。
(3)VisualSeek/WebSeek系统
VisualSeek和WebSeek是美国哥伦比亚大学开发的图像检索系统,前者是视觉特性搜索引擎,后者是面向WWW的文本/图像搜索引擎[3]。VisualSeek实现了基于颜
第 3 页 共 46 页-
色、形状、空间关系以及文字关键字的查询。WebSeek侧重于Web应用,主要有三个模块:图像、视频收集模块;分类和检索模块;浏览和检索模块。该系统不仅提供了多种包括颜色、纹理、形状等单一特征的查询和检索手段,而且还可综合利用各种不同特征进行检索操作。系统采用的特征包括基于累积直方图和局部累积直方图,这是颜色特征;基于灰度共生矩阵的4种纹理量;基于不变矩的形状特征等。系统能自动提取特征向量,能同时显示查询图、特征图和检索结果。 (4)Photobook((http://web.media.edu/tPminka/Photobook)
Photobook是美国麻省理工学院的多媒体实验室所开发的用于图像查询和浏览的交互式工具。它由三个子系统组成,分别负责提取形状、纹理、人脸特征。这样一来,用户就可以分别在这三个子系统中根据相应的特征来进行查找[10]。
近几年来,国内在这方面也取得了一些进展,比如刘忠伟、章毓晋等的基于特征的图像查询和检索系统。该系统不仅提供了多种包括颜色、纹理、形状等单一特征的查询和检索手段,而且还可综合利用各种不同特征进行检索操作。系统采用的特征包括基于累积直方图和局部累积直方图,这是颜色特征;基于灰度共生矩阵的4种纹理量;基于不变矩的形状特征等。系统能自动提取特征向量,能同时显示查询图、特征图和检索结果[11]。
1.3 基于内容的图像检索技术的研究方向
基于内容的图像检索的目的不是去理解或识别图像目标,它所关注的是能否基于内容快速发现信息,在用户可以接受的响应时间内从图像库中查询到符合要求的图像。这种查询过程充分体现了图像的信息特点又结合了图像处理、图像理解、数据库技术、模式识别技术和良好的人机交互技术,因此基于内容的图像检索是一项在理论研究和实际应用中都极有前途的新技术。目前,基于内容的图像检索技术主要有以下几个研究方向: (1)基于特征的图像检索技术
基于特征的图像检索技术主要包括:基于形状特征的图像检索、基于颜色特征的图像检索、基于纹理特征的图像检索以及基于空间关系特征的图像检索。其中,利用颜色和纹理特征进行检索起步较早,取得了一定的研究成果。有关利用形状特征进行检索的技术还不太成熟,存在较多的问题。 (2)图像相似性度量方法
第 4 页 共 46 页-
图像的相似性度量,是基于内容的图像检索技术中一个关键问题。两幅图像是否相似,是指它们是否具有相似的内容。在基于内容的图像检索中,采用何种相似性度量准则是图像检索的关键环节,将直接影响到检索的效果。目前常用的方法有:欧氏距离法、马氏距离法等。用这些度量方法得到的结果同人所感知相似的结果之间存在着一定的差距。
(3)基于内容检索的图像数据库结构
基于内容检索的图像数据库系统的结构一直是人们所关注的一个重要问题。要求图像数据库具有较高的逻辑性和物理性,支持图像内容的检索。 (4)相关反馈方法
目前,基于内容的图像检索中存在的一个主要问题是:现有的检索方法都是以计算机为中心,一些查询结果从计算机的角度来看是相似的,而人却认为是不完全相似。为解决上述矛盾,在基于内容的图像检索领域引入了相关反馈机制。通过人机之间交互机制,将查询的信息提供给人,将人对查询结果的评判信息反馈给计算机,使得计算机能够不断了解用户对查询结果的满意程度,并通过计算机的逐步学习将输出调整到符合用户期望的状态。 (5)图像检索效果评价
在基于内容的检索中,由于检索算法比较多,需要对各种算法的检索结果进行评判,比较算法的优劣。这就要求评价方法能够在相同的条件下找出最佳算法,从而使检索方法得到改进和提高。评价技术的难点在于:没有统一的评价准则。因为不同的检索算法应用于不同的领域,很难用通用的准则加以评价。从现在的研究情况来看,对检索效果的评价更多地是关注检索结果的正确性,主要使用的两个指标是查准率和查全率[12]。 1.4 课题内容概述
论文共分六章,组织结构如下:
第一章为引言部分,简述CBIR技术的概况,包括其背景、概念、研究意义以及国内外的研究现状。
第二章分析了电力设备图像检索系统的基本技术模块,指出其关键技术所在。研究了几种具体的图像检索方法,包括基于颜色、纹理、形状及空间关系特征的方法,
第 5 页 共 46 页-
并分析了它们各自的优缺点和适用范围。针对电力设备图像的特点,选用形状特征作为电力设备图像检索中的主要特征抽取。
第三章为了改善图像质量,提高图像检索的精确度,运用直方图均衡法、中值滤波法对电力设备图像进行预处理。
第四章对基于形状特征的图像检索算法进行了研究。评述典型的形状表达和描述的方法。针对电力设备图像库的特点,提出了将基于形状不变矩的算法应用到电力设备图像检索中,并给出了形状特征提取结果及分析。
第五章设计了一个基于形状特征的电力设备图像检索系统,主要是作为检索算法的测试平台,是一个实验性的框架系统,并给出了系统的框架结构。
第六章为结论部分,对课题所完成的工作进行了全面的总结,并对课题的后续研究提出了看法。
第 6 页 共 46 页-
2. 电力设备图片管理系统基本框架的设计
软件体系结构的设计是整个软件开发过程中的关键点,不同类型的系统需要不同的结构体系,系统的设计往往很大程度上取决于体系结构的选择。 2.1 需求分析
电力设备图片系统的主要目的就是为了服务管理人员能够将采集回来的设备信息进行归类、总结,方便以后的分析和查找,同样也满足部分普通用户对电力设备信息随时随地的浏览。电力设备必然具有电力行业的特点,而电力设备在地域上大多集中在变电站,像一次设备、通信设备等,因此针对变电站设备重点研究,尽可能的种类齐全,涵盖所有设备信息[13]。
电力设备图片管理系统特点就是对设备的图片信息进行分析、归类、和保存,所以针对图片的操作应该是本系统的重点,而图片信息相对较大,存储和读取都比较耗时,因此在考虑功能的基础上应综合系统性能和系统带宽。系统在开放原有功能的同时还应兼顾扩展性能,便于扩展和开发新的模块,要求维护相对简单。针对存在问题的分析,根据实际需求,电力设备信息管理系统以覆盖电力设备信息为基本考虑,以信息资源网络化管理为重要手段,以即时图片信息为主体,兼顾功能的扩充和完善,以提高电力设备信息管理水平为主要目的[14]。 因此要求电力设备图像检索系统具有以下功能:
(1)采用直观的可视化提问方式,电力设备图像检索可以采用示例查询法,当用户不清楚检索提问要求,或不熟悉图像信息结构类型时,可通过浏览,选择例子作为查询条件,并可以通过浏览结果来判断查询结果的好坏,从而做必要的修正,然后再次进行提问,直至得到满意的结果。
(2)从电力设备图像中提取设备的有效特征,并根据这些特征从电力设备图像数据库中查找、检索出具有相似特征的图像数据。它突破了基于字符表达式的传统图像检索的局限,电力设备图像检索直接对图像内容进行分析,抽取设备特征,使得检索过程更加有效,适应性更强。
(3)特征提取和索引建立可由计算机自动完成。运用计算机避免了人工描述的主观性,也大大减少了工作量,但相似性度量与人的主观感受有关,因此,常需要用人机交互的方法,学习人的主观相似度感受。
第 7 页 共 46 页-
(4)能满足多层次的检索要求。系统通常包括了电力设备图像库、特征库和知识库,可满足多方面的检索要求。如常规的基于客观属性(关键词)的检索、基于 内容的检索、对象关联检索以及概念查询检索等。
(5)检索效率较高,能从大型分布式数据库中以较快的速度查找到有关图像, 而不用去理解和识别图像中的对象。
(6)交互性强。用户参与检索过程,可对检索方式不断改进,反复提问,直至找到满意的结果为止。这种把检索结果的全部或部分内容再作进一步细化检索的过程称为相关反馈,可以弥补一些没有或无法考虑的因素对查询结果所造成的影 响,能够引导查询方向,以便满足用户的特定需求。
(7)由于表达的近似性,检索结果中可能包含不相关的图像,这种情况是允许的,但重要的是不要遗漏相关的图像。为了获得令用户满意的检索结果,必须设计和建立相关反馈模型,可以在第一次检索结果的基础上进行多次反馈[15]。 2.2 系统功能分析
本系统旨在设计一个基于图片的综合设备信息管理软件,除能够实现对电力设备图片进行存储、编辑、删除、等基本操作,并能对外设中的图片进行简单归类并做出初步识别,而且能够对数据库中的图片进行多种方式的组合查询,电力设备图像检索系统整体框架图如图2-1所示:
第 8 页 共 46 页-
图2-1电力设备图像检索系统整体框架
分析上图可以看出,电力设备图像检索系统一般包括下面几个模块:用户界面模块、图像输入模块、特征抽取模块以及结果显示模块。各模块完成一定的功能,用户界面模块提供系统与用户的接口;图像输入模块在向系统输入图像的同时要对图像进行预处理,并对图像进行特征抽取以建立特征库;特征抽取模块完成对特征的提取,这是决定电力设备图像检索系统性能优劣的关键之一;结果显示模块把示例图像或草图的特征与图像特征库中的特征进行相似匹配,并按相似度从大到小的次序显示电力设备图像。 (1)图像预处理
电力设备图像在采集过程中,由于采集人员的非专业化、采集环境的非理想化,将使图像不可避免地受到噪声的污染,图像的画质可能会出现不尽人意的退化现象。例如,灰度偏移、几何变形以及图像变得模糊不清等。因此需要对设备图像进行必要的预处理,常用的预处理方法有滤波、几何变换、直方图均衡、模糊图像的锐化、灰度值修正等[16]。另外,图像预处理还包括格式转换、尺度归一、图像增强与去噪音等。 (2)特征的提取
第 9 页 共 46 页-
这是电力设备图像检索系统的关键技术之一,特征提取的好坏直接关系到整个系统的性能,对特征提取技术的基本要求是准确和快速。从包含大量信息的图像中分解出不同种类的特征信息,主要包括视觉特征和统计特征。视觉特征是指具有直观意义的图像的形状与颜色特征,统计特征是对图像像素、纹理等特征的统计[17]。特征的提取可以是针对整幅图像,也可以是图像某个区域或具体的内容对象。 (3)数据库系统
由电力设备图像库、特征库和知识库组成。电力设备图像库为数字化的图像信息;特征库为电力设备图像的内容特征和客观特征;知识库包含专门和通用知识,以利于查询优化和快速匹配。 (4)查询和浏览界面
用户可以用整幅图像、特定对象以及各种特征的组合等形式进行电力设备图像的查询。查询时需要通过浏览界面来确定查询要求,而且查询后返回结果也需要浏览。
(5)图像匹配
图像匹配就是对提取出的电力设备图像颜色、纹理、形状、空间关系等特征进行匹配[18]。在电力设备图像检索系统中图像之间的相似性通常是指代表它们的特征向量之间的相似性,将图像的特征向量看作是某特征空间的点,两点的接近程度用它们的距离表示,距离越小则表示它们所代表的图像越相似。用户检索电力设备图像时首先向系统提供示例图像或草图,然后系统将示例图像或草图转换成其特征向量的内在表示形式,接着系统计算用户所给图像或草图与图像库中图像特征向量的相似度或距离,最后系统借助于索引机制实现检索。
与基于文本检索的精确匹配不同,电力设备图像检索系统通过计算查询图像与库中图像的相似度来检索图像,所以检索返回的结果不是单幅图像而是若干幅图像,一般按照相似度从大到小的次序显示图像以供用户选择。 (6)图像检索性能的评价
电力设备图像检索评价方法还没有统一的标准,较常用的是图像的查准率和查全率 [19],这种评价标准最初用于传统的信息检索系统中。查准率是指在一次查询过程中所查到的相关图像数目同该次查到的所有图像数目之比。查全率指在一次查询过程中,用户所查到的相关图像的数目和数据库中与目标图像相关的所有图像数
第 10 页 共 46 页-
目之比。一般预先设定一个阈值,当其相似度大于阈值时作为相似图像返回。在这个定义下,查全率和查准率成反比关系:提高阈值则返回的图像减少,查全率降低而查准率提高,相反亦然。所以要综合使用这两个指标来衡量某种检索算法。 2.3 图像检索的主要方法研究
CBIR技术主要依据图像的画面内容特征和主题对象特征来进行检索。目前比较成熟的方式是基于颜色、纹理、形状和空间关系特征的图像检索,电力设备图像检索的方法可以参照CBIR的这些主要方法。 (1)颜色特征方法
颜色特征是图像中使用的最直观的视觉特征,往往和图像中包含的物体或场景的关系十分密切。此外。颜色与其它特征相比,对图像本身的尺寸、方向,视觉的依赖性较小,具有较高的稳健性。人们对于彩色图像最直观的感受也是它的颜色特征。从不同的图像颜色中,人们可以得到明暗、冷暖、喜怒哀乐等感觉;在大自然中,颜色经常标志了不同的物种。在人们的生活中,颜色也常常用来作为警示标志等[12]。颜色作为图像的特征有其特殊的特点,使得在某些场合下利用颜色进行图像检索有着很高的效率和准确性。又由于颜色特征计算相对简单,因此基于颜色的查询成为现有基于内容的图像检索系统中应用最基本的方法。
颜色具有一定的稳定性,它对大小、方向都不敏感。利用颜色特征进行图像检索需要解决三个关键问题:颜色的表示,颜色特征的提取和基于颜色的相似性度量。颜色特征描述有两种方法:颜色直方图和颜色集。在进行相似度比较时主要有直方图相交,欧氏距离,二次矩等。在检索过程中,主要可以采用以下两种方式:一是直接事例查询法,二是基于图像的主色调查询[20]。虽然电力设备图像也有几种不同的颜色,但颜色并不丰富,而且大多是灰黑色,有的设备之间颜色相同但却属于完全不同的类别。仅靠颜色特征并不能很好的区分不同类别的电力设备。 (2)纹理特征方法
纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征,它 是所有物体表面共有的内在特性,例如云彩、树木、砖、织物等都有各自的纹理 特征。关于纹理的定义至今还没有一个统一的标准,针对图像处理领域,相关的
第 11 页 共 46 页-
定义是:纹理是一种反映一个区域中像素灰度级空间分布的属性。目前主要有两种方法:一种是统计方法,对图像中的色彩强度的空间分布信息进行统计;一种是频谱方法,先对图像进行数学变换,将空域信息变换到频域,再对图像进行分析,提取纹理特征[21]。
图像或物体的纹理反映了其本身的内在属性,利用纹理特征有助于我们将两种不同的物体或图像区分开来。例如沙漠的图像和森林图像有着明显不同的纹理特征,一般说来沙漠的灰度或色调变化缓慢,而森林的色调变化则较快,那么提取出来的特征值差别一定很明显。比如在植物长势分析中,即使是同类植物,由于地形同,生长条件及环境的不同,植物散布形式亦有不同。反映在图像上就是纹理的粗细(植物生长的稀疏),走向(如向阳、靠水和地段应有生长茂盛的植被)等特征的描述和解释。基于纹理的检索在区分有相似颜色的区域时也是非常有用的,(比如天空和海洋,树叶和草地)。
使用纹理作为检索的特征,一般是图像的内容较为丰富,物体和背景不易分割的情况。当图像中不存在颜色和形状信息时,纹理是进行图像检索与分类的重要特征,如果图像场景中有树木和草,我们很容易用纹理,而不是颜色或形状对图像进行分类[22]。纹理在对卫星图像的地形、森林分析以及生物细胞组织的显微镜图像的分析中都非常重要。由于电力设备图像的纹理并不是很明显,所以纹理方法也不太适合电力设备图像的检索。 (3)形状特征方法
形状特征是图像的核心特征之一,也是人类视觉系统进行物体识别时所识别的关键信息之一。图像的形状信息不随图像颜色的变化而变化,是物体稳定的特征。人在观察景物时,通常在视觉系统中会对景物进行分割,这是识别过程中一个非常重要的环节,这样,所看到的就不是一个结构复杂的统一物体,而是一些简单物体的集合体。在进行基于形状的图像检索时,采取类似的思想,分离图像中的物体,把图像分割为像素集合,每一个集合代表一个物体的图像。图像分割可以采用三种不同的原理来实现:区域法、边界法和边缘法。在利用区域法时,把各像素划归到各个物体或区域中[23]。在边界法中,需要确定存在于区域间的边界。在边缘法中,需要确定边缘像素,并将其连接在一起形成所需的边界。
第 12 页 共 46 页-
形状可用面积、离心率、圆形度、形状矩、曲率等全局和局部特征来表示,主要分析方法有不变矩、傅立叶描述符、向心链码等,前两种方法是最成功的表示法。不变矩法利用了不变矩的位移、旋转和缩放不变性;傅立叶描述符法是用物体边界的傅立叶变换作为其形状描述;向心链码的方法首先采用向心链码对形状进行编码,再在编码码流中直接提取形状的“相对凸数”及“凸度”,以此作为形状检索的依据。向心链码方法具有一定的抗“相似性形变”能力。
形状特征的描述主要有基于边界和基于区域两大类,前者只利用形状的外部边缘,而后者利用形状的全部区域。这两种又都可以进一步分为基于变换域和基于空间域的方法,其中空间域主要涉及几何特征。
形状可以与颜色、纹理等特征结合起来实现通用于综合图像库的检索,从通用图像库中直接依据物体的形状特征检索不同的物体。也可以针对专用领域,主要利用形状特征,实现对形状特征比较明显的各类图像库的检索。目前专用领域主要有如下几个方面:外观设计专利库管理,商标库的注册和检索,机械零件库的管理和利用,建筑设计,考古研究,医学图像库。电力设备图像的颜色并不丰富,纹理也不是很明显,但一幅图像通常只有一个形状明显的主题对象,且不同类别的设备之间形状有较大的差距,所以电力设备图像的检索采用形状方法更合适。 2.4 本章小结
本章给出了电力设备图像检索系统的基本结构框架,分析了基本的技术模块,指出其关键技术所在。研究了几种具体的图像检索方法,包括基于颜色、纹理、形状特征的方法,并分析了它们各自的优缺点和适用的范围。针对电力设备图像的特点,选用形状特征作为电力设备图像检索中的主要特征抽取。
第 13 页 共 46 页-
3. 电力设备图像预处理
图像预处理是图像处理过程中最基本的处理。图像质量的好坏对图像检索的结果会产生不同的影响。由于数字图像的产生会受到诸如传感器的振荡、转换设备自身电子器件等原因的干扰,导致转换后得到的数字图像的质量下降。为了保证电力设备图像检索的结果,需要对电力设备图像进行预处理。 3.1 灰度化
一般拍摄得到的都是彩色RGB图像,因为本文提取的是电力设备图像的形状特征,与图像的颜色无关。为了加快检索速度,对图像进行了预处理,预先把所有的图像转换成灰度图像。
将彩色图像转化成为灰度图像的过程成为图像的灰度化处理。彩色图像中的每个像素的颜色有R、G、B三个分量决定,而每个分量有255中值可取,这样一个像素点可以有1600多万(255*255*255)的颜色的变化范围。而灰度图像是R、G、B三个分量相同的一种特殊的彩色图像,其一个像素点的变化范围为255种,所以在数字图像处理种一般先将各种格式的图像转变成灰度图像以使后续的图像的计算量变得少一些[24]。灰度图像的描述与彩色图像一样仍然反映了整幅图像的整体和局部的色度和亮度等级的分布和特征。
图像的灰度化处理可用两种方法来实现:第一种方法使求出每个像素点的R、G、B三个分量的平均值,然后将这个平均值赋予给这个像素的三个分量;第二种方法是根据YUV的颜色空间中,Y的分量的物理意义是点的亮度,由该值反映亮度等级,根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应:Y=0.3R+0.59G+0.11B,以这个亮度值表达图像的灰度值[25]。 执行后效果图如下:
第 14 页 共 46 页-
(a)原图
(b)执行后效果图
图3-1 彩色图像转换为灰度图像的结果
3.2 对比度增强
有些电力设备图像的对比度很差,因此需要对图像中每一像素的灰度进行灰度标度变换,扩大图像灰度的范围,达到增强的目的。设原始图像在(x,y)的灰度为p,而改变后的图像为q,则对图像的增强可表述为将在(x,y)处的灰度p映射为q,此映射可以表示为:
q(x,y)=T[p(x,y)] (式3.1)
根据映射方式不同,对比度增强可分为灰度变换法和直方图修整法。其中前者又可以分为线性,分段线性和非线性的灰度变换以及其他的灰度变换。直方图修整法通常分为直方图均衡化和直方图化两类[26]。
执行对比度增强后效果图如下:
(a)原图
(b)对比度增强后效果图
图3-2 执行对比度增强后效果对比图
第 15 页 共 46 页-
3.3 图像平滑
图像平滑主要是为了消除噪声。噪声并不限于人眼所能看的见的失真和变形,有些噪声只有在进行图像处理时才可以发现[27]。图像的常见噪声主要有加性噪声、乘性噪声和量化噪声等。图像中的噪声往往和信号交织在一起,尤其是乘性噪声,如果平滑不当,就会使图像本身的细节如边界轮廓、线条等变的模糊不清,如何既平滑掉噪声有尽量保持图像细节,是图像平滑主要研究的任务。
一般来说,图像的能量主要集中在其低频部分,噪声所在的频段主要在高频段,同时系统中所要提取的汽车边缘信息也主要集中在其高频部分,为了去除噪声,有必要对图像进行平滑,可以采用低通滤波的方法去除高频干扰。图像平滑包括空域法和频域法两大类,在空域法中,图像平滑的常用方法是采用均值滤波或中值滤波,对于均值滤波,它是用一个有奇数点的滑动窗口在图像上滑动,将窗口中心点对应的图像像素点的灰度值用窗口内的各个点的灰度值的平均值代替,如果滑动窗口规定了在取均值过程中窗口各个像素点所占的权重,也就是各个像素点的系数,这时候就称为加权均值滤波;对于中值滤波,对应的像素点的灰度值用窗口内的中间值代替。实现均值或中值滤波时,为了简便编程工作,可以定义一个n*n的模板数组
[28]
。另外,需要注意一点,在用窗口扫描图像过程中,对于图像的四个边缘的像素
点,可以不处理;也可以用灰度值为\"0\"的像素点扩展图像的边缘。
中值滤波法是一种局部图像平滑技术,属于非线性滤波,它可以是一维的也可以是二维的。所谓中值滤波,就是把以某点作为(x,y)为中心的小窗口内的所有像素的灰度按从小到大的顺序排列,将中值作为(x,y)处的灰度值。它的思想是用邻域中亮度的中值代替图像当前的点。邻域中亮度的中值不受个别噪声毛刺的影响,因此中值平滑相当好地消除了冲激噪声。更进一步,由于中值滤波并不明显地模糊边缘,因此可以迭代使用。
因为图像是二维像素矩阵,所以采用二维中值滤波算法。
对于一幅图像的像素矩阵,取以目标像素为中心的一个子矩阵窗口,这个窗口可以是3x3或者5x5等,根据需要选取,对窗口内的像素灰度排序,取中间一个值作为目标的新灰度值(若窗口中有偶数个像素,则取两个中间值的平均)[21],中值滤波去除噪声的过程如下:
原图 处理后的图
第 16 页 共 46 页-
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 6 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0
上图中左边是原图,数字代表该处的灰度。可以看出中间的6和周围的灰度相差很大,是一个噪声点。经过3*1窗口(即水平3个像素取中间值)的中值滤波,得到右边那幅图,可以看出噪声点被去除了。
一般来说,二维中值滤波器比一维滤波器更能抑制噪声。二维中值滤波器的窗口形状可以有多种,如线状、方形、十字形、圆形、菱形等。不同形状的窗口产生不同的滤波效果,使用中必须根据图像内容和不同的要求加以选择[29]。 执行程序后效果图如下:
(a)被椒盐噪声污染的图像
(b)3*3中值滤波的结果
图3-3 被噪声污染的图像经中值滤波的效果
可以看出应用中值滤波,能在保护图像边缘的同时去除噪声。中值滤波容易去除孤立点、线的噪声,同时保持图像的边缘,它能很好的去除二值噪声。但由处理结果也可以看出中值滤波后的图像有些模糊,标牌上的文字不如原图清晰。 3.4 本章小结
本章探讨了图像预处理的基本方法如灰度化,对比度增强等以及它们在图像处理过程中的作用。经过预处理的图片质量得到提高,消减了环境等因素对图片造成的影响为下一步的特征提取做好了准备。
第 17 页 共 46 页-
4. 基于形状的电力设备图像检索算法研究
4.1 形状表达和描述
形状特征是图像的核心特征之一,也是人类视觉系统进行物体识别时所识 别的关键信息之一。图像的形状信息不随图像颜色的变化而变化,是物体稳定的特征。人在观察景物时,通常在视觉系统中会对景物进行分割,这是识别过程中一个非常重要的环节,这样,所看到的就不是一个结构复杂的统一物体,而是一些简单物体的集合体。在进行基于形状的图像检索时,采取类似的思想,分离图像中的物体,把图像分割为像素集合,每一个集合代表一个物体的图像。图像分割可以采用三种不同的原理来实现:区域法、边界法和边缘法。在利用区域法时,把各像素划归到各个物体或区域中。在边界法中,需要确定存在于区域间的边界。在边缘法中,需要确定边缘像素,并将其连接在一起形成所需的边界[30]。
提取物体的形状特征前,首先要对图像进行边缘提取,以获得物体的轮廓 边界,然后需要把轮廓边界区域的特征抽取出来。为了提取物体的形状特征,对图像进行了分割操作。通过图像分割,将一幅图像分割为不同的区域(获得了物体的轮廓边界)。接下来,需要进行特征抽取,也就是说需要进一步把分割开的区域的特征抽取出来。在这些特征里面,有一部分可以用数字量值来描述,但更多的特征是一些没有明显特征的几何图形。为了便于图像的匹配,需要对这些几何图形进行进一步的描述。
对形状的描述主要分为基于边界的方法和基于区域的方法两大类,前者只利用形状的外部边缘,而后者利用形状的全部区域[31]。
形状描述必须满足以下特点:
(1)独特性:这一点在图像检索中非常重要,因为每幅图像必须具有一个独特的描述;
(2)完备性:形状描述不能似是而非;
(3)几何变换后的不变性:几何变换,如平移、旋转、缩放和镜像之后的不变性,在目标识别中非常重要;
(4)灵敏性:灵敏性要求形状描述能很容易地反映相似目标的差异;
(5)抽象性:指形状描述要能从细节中抽象出形状的基本特征。抽象性与形状描
第 18 页 共 46 页-
述的抗干扰性直接相关。 4.2 边缘检测算子与提取
基于边界的形状特征提取关键在于边缘检测的研究,在提取边缘的基础上,定义边缘的特征描述。
边缘(edge)是指图像局部强度变化最显著的部分。边缘主要存在于目标与目标、目标与背景、区域与区域(包括不同色彩)之间。图像强度的不可连续可分为:跃阶不连续,即图像强度在不连续处的两边的像素灰度值有着显著的差异;线条不连续,即图像强度突然从一个值变化到另一个值,保持一较小行程后又回到原来的值[32]。
边缘检测算子检查每个像素的邻域并对灰度变换率进行量化,也包括方向的确定,大多数使用基于方向导数掩模求卷积的方法。 4.2.1 梯度算子
梯度算子对应一阶导数,梯度算子是一阶导数算子。对一个连续函数f(x,y),它在位置(x,y)的梯度可表示为一个矢量:
f(x,y)GxGy这个矢量的幅度和方位角分别为:
Tff (式4.1) xy21/2T mag(f)GxGy2 (式4.2)
Gy/Gx) (式4.3) (x,y)arctan(在实际常用那个小区域模板卷积来近似计算偏导数。对Gx和Gy各用一个模板,所以需要2个模板组合起来以构成一个梯度算子。常用的梯度算子有普瑞维特(Prewitt)算子,索贝尔(Sobel)算子[33]。 (1)Sobel算子。
a0 a7 a6 a1 a2 [i,j] a3 a5 a4
第 19 页 共 46 页-
梯度幅值:MSx2Sy2 (式4.4)
用卷积模板来实现就是:
211011 Sy0 (式4.5) 00Sx202121101执行程序后效果图如下:
(2)Prewitt算子。与Sobel算子方程完全一样,但c=1。
(a)原图
(b)执行程序后效果图
图4-1执行sobel算子后的效果
101111 Sy000 (式4.6) 101 Sx101111(3)拉普拉斯算法。由于噪声点(灰度与周围点相差很大的点)对边缘检测有一定的影响,所以效果更好的边缘检测器是高斯拉普拉斯(LOG)算子[34]。拉普拉斯算子是一种二阶导数算子,对一个连续函数f(x,y),它在位置(x,y)的拉普拉斯值定义如下:
22ff2f22xy (式4.7)
计算拉普拉斯值的模板理对应中心像素的系数应是正的,而对应中心像素邻近像素的系数应是负的,而且它们的和应该是零。常用的两种模板如下所示:
第 20 页 共 46 页-
010111 181 (式4.8) 141 010111
常用的LOG算子是5x5的模板。
244440804824*880402444244 (式4.9) 42执行程序后效果图如下:
边缘检测基本步骤如下:
图4-2执行拉普拉斯算法后的效果
(a)原图
(b)执行程序后效果图
①滤波:改善与噪声有关的边缘检测器的性能:一般滤波器降低导致了边缘检测的损失:增强边缘和噪声之间需要折中。
②增强:将邻域强度值有显著变化的点凸现出来,边缘增强一般是通过计算梯度幅值来完成的。
③检测:最简单的边缘检测判断据实梯度幅值阈值。 ④定位:边缘的位置和和方位在子像素分辨率上估计。
第 21 页 共 46 页-
4.2.2 用Canny算子提取边缘
Canny边缘检测算子是John F.Canny于1986年开发出来的一个多级边缘检测算法[35]。Canny边缘检测基本原理如下:
(1)图像边缘检测必须满足两个条件:一能有效的抑制噪声;二必须尽量精确确定边缘的位置。
(2)根据对信噪比与定位乘积进行测度,得到最优化逼近算子。这就是Canny边缘检测算子。Canny算子边缘提取的步骤如下: ① 噪。首先通过高斯平滑对图像进行降噪。
H(x,y)eab2 (式4.10)
G(x,y)f(x,y)*H(x,y) (式4.11)
②寻找图像中的亮度梯度。用一阶偏导数的有限差分来计算梯度的幅值和方向。一阶差分卷积模板如下所示:
1111H1 H211 111(m,n)f(m,n)*H1(x,y)2(m.n)f(m,n)*H2(x,y) (式4.12)
(m,n)1(m,n)2(m,n) (式4.13)
222(mn)tan1(m,n) (式4.14)
1③对梯度幅值进行非极大值抑制NMS(non-maxima suppression)。在每一点上,邻域的中心像素M与沿着梯度线的两个像素相比,如果M的梯度值不比沿梯度线的两个相邻像素梯度值大,则令M=0,如下所示:
N(i,j)NMS(M[i,j],[i,j]) (式4.15)
④用双阈值算法检测和连接边缘。 效果图如下:
第 22 页 共 46 页-
(a)原图
4.3 不变矩形状特征的提取
作为一组关于形状的统计值,矩不变量的表示形式有多种,如Legenda矩、Zernike矩等[36]。本文对图像的形状特征提取采用Hu矩表示,其在图像像素数目一定的情况下,具有对图像的旋转(Rotate)、平移(Shift)、和尺度变化(Scale)的不变性[37]。给定二维连续函数f(x,y),其(p+q)阶矩定义为:
(b)执行程序后效果图
图4-3用canny算子提取边缘后的效果
mpq标。它的p+q阶矩定义为:
xydxdy,p,q0,1,2,3...pq (式4.16)
对于一幅数字灰度图像也可以用f(x,y)来表示,其中x,y为像素点的空间坐
mpqxyxyf(x,y),p,q0,1,2,3...pq (式4.17)
其中mpq唯一地被f(x,y)所确定,反之mpq也唯一地确定了f(x,y)。由mpq出发可定义一批图像数字特征: (1)图像的重心坐标:
xm10/m00,ym01/m00 (式4.18)
(2)f(x,y)的p+q阶中心矩定义为:
第 23 页 共 46 页-
pqxy(xx)p(yy)q,p,q0,1,2,3... (式4.19)
对μpq进行归一化,则得到的矩能够满足尺度不变性,定义为:
pqpq00y (式4.20)
pq1,pq2,3... 这里2各阶矩的物理意义:η直方向上的伸展度;η图像向右上倾斜);η
3011
20
表示图像在水平方向上的伸展度;η
02
表示图像在垂
表示图像的倾斜度(η11>0表示图像向左上倾斜η11<0表示
表示图像在水平方向上的重心偏移度(η30>0表示重心偏左,
03
η30<0表示重心偏右);η表示图像在垂直方向上的重心偏移度(η03>0表示重心
21
偏上,η03<0表示重心偏下);η表示图像水平伸展的均衡程度(η21>0表示图像下
12
部的水平伸展比图像上部大,η21<0表示图像的上部水平伸展比下部大);η表示
图像垂直伸展的均衡程度(η12>0表示图像右边的垂直伸展比左边大,η12<0表示图像左边的垂直伸展比右大)
(3)将一些归一化的二阶和三阶中心矩进行组合可得到7个对平移、旋转和尺度变化不变的矩,即有:
120022(2002)241123(30312)2(3213)2 4(3012)2(213)25(30312)(3012)(3012)23(213)2(3213)(213)3(3012)(213)22
6(202)(3012)2(213)2
411(3012)(213)7(3213)(3012)(3012)23(213)2(31230)(213)(33012)(213)22
(式4.21)
第 24 页 共 46 页-
归一化矩对平移、缩放、伸展和挤压变化不变,另外前6个归一化中心矩对旋转不变,而第7个对扭曲也不变,能较好地反映一幅图像的特征[38]。 4.4 图像离心率特征的提取
为了提高图像检索的准确度,可以从Hu不变矩定义图像的离心率特征量e,按下式计算:
(202)24112e(202)2 (式4.22)
离心率特征e表示了图像的最大轴向与图像的最小轴向的比率,同样也满足物体平移、旋转、和尺度不变性。将Hu不变矩特征量Φ1~Φ7和离心率e合并,就形成了图像的全局形状特征向量[39]。 4.5 特征提取结果与分析
本文应用特征提取模块,对图像进行仿真
在原始图像进行平移、旋转和比例变化后,七个矩在数值上变化不大,因而不变矩特征在图像检索中比较稳定。该算法主要分析的是图像的形状特征,由于算法中利用了矩特征,因此能够有效的消除图像由于平移、尺度、旋转变换等带来的问题。
从大量电力设备图像的形状特征值中分析可以得出一些规律。下面列举了部分电力设备图像和其对应的特征值,如下所示。
Hu1=0.7431 Hu2=0.1381 Hu3=0.0104 Hu4=0.1326 Hu5=0.1582 Hu6=0.18 Hu7=0.1598
图4-4 变压器1
表4-1变压器1的7个不变矩
第 25 页 共 46 页-
图4-5变压器2
图4-6变压器3
图4-7刀闸
Hu1=0.7512 Hu2=0.0381 Hu3=0.0871 Hu4=0.1876 Hu5=0.1979 Hu6=0.1962 Hu7=0.1861 表4-2变压器2的7个不变矩
Hu1=0.7557 Hu2=0.1232 Hu3=0.1109 Hu4=0.1259 Hu5=0.1321 Hu6=0.1315 Hu7=0.1321 表4-3变压器3的7个不变矩
Hu1=0.7206 Hu2=0.1505 Hu3=0.1026 Hu4=0.1498 Hu5=0.1920 Hu6=0.1721 Hu7=0.15 表4-4刀闸的7个不变矩
第 26 页 共 46 页-
Hu1=0.60 Hu2=0.1232 Hu3=0.2406 Hu4=0.1967 Hu5=0.2001 Hu6=0.1983
4.6 距离的计算
图4-8闸刀开关
Hu7=0.1862 表4-5闸刀开关的7个不变矩
本系统统一采用欧式距离为相似度量的测度,欧氏距离定义: 欧氏距离( Euclidean distance)是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。 推广到n维空间,欧式距离的公式是 d(xi1xi2)2 这里i=1,2..n (4-21)
xi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标
n维欧氏空间是一个点集,它的每个点可以表示为[x(1),x(2),...x(n)],其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=[y(1),y(2)...y(n)]之间的距离d(x,y)定义为上面的公式.
欧氏距离看作信号的相似程度。 距离越近就越相似。
第 27 页 共 46 页-
欧氏距离
5.5240e+000 7.8671e+003 6.8880e+003 8.0572e+003 3 7.8671e+003 4.6214e+000 5.35e+003 7.6073e+003 3 6.6342e+006.8880e+003 5.35e+003 0 9.6292e+003 3 1.0147e+008.0572e+003 7.6073e+003 9.6292e+003 0 4 5.5240e+003 4.6214e+003 6.6342e+003 1.0147e+004 0
4.7 实验结论
表4-6 各种电力设备之间的欧氏距离
形状特征是图像的核心特征之一,也是人类视觉系统进行物体识别时所识别的关键信息之一。图像的形状信息不随图像颜色和纹理的变化而变化,是物体稳定的特征。提取物体的形状特征前,首先要对图像进行边缘提取,以获得物体的轮廓边界,然后再把轮廓边界区域的特征抽取出来。而许多的特征是一些没有明显特征的几何图形。为了便于图像的匹配,需要对这些几何图形进行进一步的描述[40]。图像中物体的性质不能因为图像的移动、旋转、比例改变而变化,所以,在进行形状描述时,选择的描述符应具有平移不变性、旋转不变性、尺度不变性等特点,而且还
第 28 页 共 46 页-
应该能够刻画形状的本质特点,使得该描述符具有良好的可分辨能力。
矩特征是建立在对一个区域内部灰度值分布的统计分析基础上的,是一种统计平均的描述,可以从全局观点描述对象的整体特征[41]。矩是一种线性特征,对于图像的旋转、比例尺度、平移具有不变性,可以用来描述图像中的区域特性[42]。
由于高阶矩跟形状的关联较小,在计算两幅图像的相似度时重点使用低阶矩,其权重设置较大。如一阶矩可以用来计算区域的中心,二阶矩也就是惯量矩,可以用来计算形状的主轴。从提取出的几个矩特征也可看出,7个矩中,Hu1最大,而其余矩都比它小几个数量级。变压器这类图片的Hu1值大约都分布在0.74,0.75左右,相差很小,而其它几个类别的图片Hu1的值都和0.75相差较大,所以只要给低阶矩设置较大的权重,且Hu1的权重最大,就可以把变压器和其他类别的设备区分开。
综合上述分析,利用形状特征进行图像检索有以下三个问题值得注意: 首先,形状常与目标联系在一起,有一定的语义含义,因而形状特征可以看作是比颜色或纹理要高层一些的特征。另外,对形状的表达比对颜色或纹理的表达从本质上要复杂得多。要获得有关目标的形状参数,常常要先对图像进行分割,所以形状特征的提取会受图像分割效果的影响。这里需要注意,在没有有关应用领域的知识时,自动的分割方法很难将相应的目标准确的提取出来。
其次,目标形状的描述是一个非常复杂的问题,事实上,至今还没有找到形状的确切数学定义,包括几何的、统计的或形态学的测度使之能与人的感觉一致[44]。人对形状的感觉不仅是一个视网膜的生理反映结果,而且是视网膜感受与人关于现实世界的知识这二者之间综合的结果。
最后,从不同视角获取的图像中目标形状可能会有很大差别,为准确进行形状匹配,需要更完美的解决平移、尺度、旋转、仿射变换不变性的问题,这在许多检索应用中将起着非常重要的作用。
第 29 页 共 46 页-
5. 电力系统设备管理系统框架的构建
本实验系统采用了单机系统,虽然单机系统不如分布式系统,但作为实验系统则完全可以胜任。单机系统的简单性可以减轻不必要的工作负担,使得能够将大部分精力集中在检索算法的研究上。
本实验系统的开发平台为Microsoft Windows XP,开发工具为Microsoft公司的Visual C++6.0。 5.1 系统总体结构设计
对电力设备图像运用CBIR技术,首先对电力设备图像进行图像预处理,改善 图像质量,以提高检索的精确度。还要把各种类型的设备图像转换成统一大小和格式的图像,在将图像存入数据库的同时提取其形状特征存入与图像数据库相连的特征库。检索时对于给定的示例图,先提取其形状特征向量,然后将该特征向量与特征库中的特征向量进行相似度计算,根据要求输出一定数量的和示例图像最相似的图像。
用户发出查询要求述与库中信息进行匹配系统将查询要求转化为计算机内部描述,并借助这些描提取出需要的信息数据,用户对此验证后可直接使用或 借以改进查询条件并开始新一轮检索。
系统的框架可见图,主要由五个模块组成,见图中圆角矩形框内。
查询 描述 匹配 用户信息验证 提取 多媒体数据库 图5-1系统模块组成
5.2 模块划分及简介 (l)查询模块
其主要功能是对用户提供多样的查询手段,以支持用户根据不同应用进行各种类型
第 30 页 共 46 页-
的查询工作。换句话说,用户要进行查询,先提出要求条件,这些要求条件主要基于对图像内容的描述。 (2)描述模块
其主要功能是将用户的查询要求转化为对图像内容比较抽象的内部表达和描述,即通过对图像的分析,从而以一定的、计算机可以方便表达的数据结构建立对图像内容的描述。这个模块在图像数据库建立的时候也需要对每幅图像进行处理。 (3)匹配模块
其主要功能是在图像库中搜索所需的图像内容。因为对被查询图像建立的表达描述也已经对图像数据库中的图像建立了,所以将对查询图的描述与图像数据库中被查询图的描述进行内容匹配和比较就可以确定它们在内容上的一致性和相似性。这个匹配的结果将传给提取模块。 (4)提取模块
其主要功能是根据匹配的结果在图像数据库中对感兴趣的图像定位,并在内容匹配的基础上将图像数据库中所有满足给定要求条件的图像自动地提取出来以让用户使用。 (5)验证模块
其主要功能是帮助验证如上提取的图像是否满足要求。根据目前的技术水平和设备条件,在自动查询和提取的基础上用户还需有最后验证结果的手段。如果验证效果不满意,新一轮的查询可通过修改查询条件而重新开始。 5.3 查询模块的实现
查询模块要实现两种查询方法:利用采样图像查询和利用范例图像查询。这 两种查询方法虽然在概念上是有区别的,但是他们的实现手段是一致的。具体说 来可分为两步来实现:1载入指定的采样图像或范例图像;2计算采样图像或范例图像的纹理和形状特征向量。 (1)载入采样图像或范例图像
设计函数BooL LoadBmpFile(HWND h Wnd,char*BmpFileName)来完成载入采样图像或范例图像的功能。功能描述:
从一个.bmp文件中读取数据(包括BITMAPINFOHEADER,调色板和实际图像数
第 31 页 共 46 页-
据),将其存储在一个全局内存句柄处m_hImgData中,这个m_hImgData将在以后的图像处理程序中用到。同时填写一个类型为HBITMAP的全局变量m_hBitmap和一个类型为HPALETTE的全局变量m_hPalette。这两个变量将在处理WM_PAINT消息时用到,用来显示位图。该函数的两个参数分别是用来显示位图的窗口句柄和.bmp文件名(全路径)。当函数成功时,返回TRUE,否则返回FALSE。 输入参数:
HWND h Wnd:显示位图的窗口句柄; char*BmpFileName:.bmp文件名(全路径)。 输出参数:
HGLOBAL m_hImgData:位图文件在内存中全局内存句柄; HBITMAP m_hBitmap:位图文件在内存中的全局位图句柄; HPALETTE m_hPalette:位图文件在内存中的全局调色板句柄。 (2)计算采样图像或范例图像的形状特征向量
设计函数void OnOpenBitmap()来计算采样图像或范例图像的纹理和形状特征向量。功能描述:
函数OnOpenBitmap()首先用LoadBmpFile函数将位图载入内存,之后多次调用函数EdgeHistogram计算位图的形状特征信息最后将得到的位图的形状特征信息存放在以下结构体变量中:
Struct Figure_Character //形状特征信息 {
Char BMPFilePath[255]; //文件完整路径
float Cl; //C1,C15,C30,C45是图像边缘方向直方图 float C15: //包络线低频分量的模值 float C30; float C45;
B00L bIsLoad; //用来标记当前特征信息是否被正常载入 }m_structFigureCharacter; 输入参数:
第 32 页 共 46 页-
无。 输出参数:
struct Figure_Character m_structFigureCharacter:形状特征信息。
到这里为止,系统己经把指定的采样图像或范例图像(.bmP文件中)中所包含信息转换成纹理和形状特征向量,查询模块的基本功能已经实现。 5.4 描述模块的实现
系统在这个模块设计了两个函数来完成对形状特征向量的提取,现分别介绍如下: 函数一:
BOOL Threshold(long*GrayTable,int*T) 功能描述:
该函数的功能是通过阈值的方法自动搜寻出比较合适的阈值用以分割垂直边缘图和水平边缘图。由于阈值的迭代运算是以图像的灰度统计为基础的,所以要先用其他的函数GetIntensity()统计出边缘图的灰度分布情况。GetIniensity()函数执行完成后将存放有灰度分布的数组GrayTable作为参数传递给该函数。该函数的执行结果即迭代的最终阈值将被送到变量T中。 输入参数:
long*GrayTable:存放有边缘图灰度分布的数组的地址; ini*T:用来存放函数执行结果即迭代的最终阈值。 输出参数: 无。 函数二:
BOOL EdgeHistogram() 功能描述:
该函数首先使用水平各向同性Sobel(Isotropic Sobel)算子和垂直各向同性。Sobel(Isotropic Sobel)算子计算出水平边缘图和垂直边缘图及其灰度分布情况,然后调用Threshold函数迭代出水平边缘图和垂直边缘图的分割阈值,这样水平和垂直边缘点就确定了,最后重新对这些边缘点包括水平和垂直边缘点分别使用水平
第 33 页 共 46 页-
各向同Sobel(Isotropic Sobel)算子和垂直各向同性Sobel(Isotropic Sobel)算子,将两者商的反正切值作为该边缘点的方向信息,对所有边缘点按方向进行统计,以统计得到的直方图作为边缘方向直方图。 输入参数: 无。 输出参数:
long EgdeDirection[180]:存放边缘方向直方图的分布信息;
float m_fQuadrature1,float m_fQuadrature2,float m_fQuadrature3,float M_fQuadrature4:存放图像边缘方向直方图包络线特定的四个低频分量的模值。 5.5 匹配模块的实现 5.5.1 匹配算法的确定
匹配算法具体记录在m_structOperator这个结构体变量中 Struct Operator {
BooL bIsFigOperator;//标记是否使用形状特征进行匹配 CString strFigOperator;//形状特征算法的名称 int iFigPro;//形状特征的权重 }m_structOperator; 5.5.2 指定图像数据库
即指定本次检索的范围。设计函数void OnButtonLoadall()来载入当前文件夹下所有可供检索的bmp文件并计算其纹理和形状特征信息。 功能描述:
函数OnButtonLoadall()逐个载入当前文件夹下所有.bmp文件,并用EdgeHistogram函数计算这些文件的形状特征向量,结果存放在以*m_lpstluctTexture为首地址的内存单元里。 输入参数: 无。
第 34 页 共 46 页-
输出参数:
Struet Texlure_Charaeter {
floatC1;//形状特征向量 floatC15; floatC30; floatC45;
float distance;//与采样图或范例图的距离,由OnButtonDistance()函数 //来写 }*m_lpstructTexture; 5.5.3 距离的计算
本系统统一采用欧式距离为相似度量的测度,设计函数 void OnButtonDistance()来完成对这些欧式距离的计算。 功能描述:
函数OnButtonDistance首先将访问结构体变量m_structOperator以确定当前所选择的算法。然后逐个访问以*m_lpstructTexture为首地址的内存单元,逐个读取图像数据库中各个图像的形状特征向量,并与采样图或范例图的形状特征向量比较以计算形状特征欧式距离。最后根据m_structOPerator中记录的纹理特征和形状的权重计算出综合距离,结果写入m_lpstructTexture->distance字段中。 输入参数: 无。 输出参数:
m_lpstructTexture->distanee:图像库中的图像与采样图或范例图的距离。 5.6 提取模块的实现
本模块的在实现就是对m_lpstructTexture->distance字段的排序,没必要讨论过多的细节。具体细节可参考OnButtonSort()函数。
第 35 页 共 46 页-
5.7 验证模块的实现 (1) 对检索结果的预览
系统将检索结果存放在列表控件内,并且按从好(接近要求)到坏(偏离要求)的次序排列。通过对列表控件的单击的操作,系统将提供被选中的图像的预览。
在实际操作上,设计函数void OnCliekListProperty(NMHDR*pNMHDR,LRESULT*pResult)用来响应列表控件的“单击”事件。OnCliekListProperty在实现上可以参考附录,这里就不在介绍了。 (2)图像灰度直方图的统计
系统设计了两个函数,第一个BOOL Histogram()函数统计出每个灰度的象素个数,存放在数组GrayTable[];第二个函数void ShoWHistogram(CPainiDC*pdc)产生一个新的窗口,把统计结果显示出来。图中的横坐标表示灰度值,纵坐标表示该灰度值出现的次数(频率)。要注意的是,由于各灰度出现的频率可能相差很大,所以如何将结果显示在有限的窗口范围内,是一个必须考虑的问题。我这里的做法是,在所有出现的灰度中,统计出一个最大值max和一个最小值min,假设能显示的窗口最大坐标为270,最小坐标为5,按成比例显示,这样,灰度出现的次数和显示坐标之间呈线形关系。设a*grayhits+b=coordinate,其中grayhits为灰度出现的次数,coordinate为显示坐标,a和b为两个常数。我们将max和min代入,应该满足axmax+b=270,a*min+b=5;由此可以解得a=265/(max-min),b=270-a*max。 B00L Histogram() 功能描述:
统计出每个灰度的象素个数,存放在数组GrayTable[],并在所有出现的灰度 中,统计出一个最大值max和一个最小值min。 输入参数: 无。 输出参数:
long GraylTable[256]:存放每个灰度象素的个数; long MaxGrayNum:GrayTable数组的最大值; long MinGraNum:GrayTable数组的最小值。
第 36 页 共 46 页-
void ShowHistogram(CpainiDC.*pdc) 功能描述:
根据GrayTable[256]、MaxGrayNum、MinGrayNum中的数据,按其中数值的大小依比例绘制灰度直方图。 输入参数:
绘制灰度直方图的设备场境。 输出参数: 无。
(3)图像灰度共生矩阵的统计
在之前的模块中,己经介绍过函数BOOL Matrix(intiMatrixlndex),通过对这个函数的调用可以获得指定方向的灰度共生矩阵,并且这个矩阵将被保存到二维数组long GrayLevelCooccurrenceMatrix[256][256]中如果用象素点的灰度级别来表示灰度共生矩阵,GrayLevelCooccurrenceMatrix中的数值越大,象素点就越明亮,GrayLevelCooccurrenceMatrix中的数值越小,象素点就越暗淡,这样用256*256个象素点矩阵就可以以图像的形式表示出图像灰度共生矩阵。由于灰度只有(0到255)256个级别,所以要先将二维数组
long GrayLevelCooccurrenceMatrix[256][256]中的数据按公式换算到0到255的区间里。函数void ShowMatrix(CpaintDC*pdc)完成了绘制灰度共生矩阵图的功能。 void ShowMatrix(CPaintDC*Pdc) 功能描述:
生成及显示灰度图及其灰度共生矩阵图。 输入参数:
绘制灰度直方图的设备场境。 输出参数: 无。
(4)图像边缘方向直方图的统计
边缘方向直方图的显示方法与灰度直方图的显示方法很类似,唯一的区别是要用函数EdgeHistogram()(已经在之前的模块中介绍)填充
第 37 页 共 46 页-
long EgdeDirection[180],然后根据这个统计结果生成图像边缘方向直方图。图中的横坐标表示角度值,纵坐标表示该角度值出现的次数(频率)。设计了函数void ShowEdgeHistogram(CpaintDC*pdc)来显示图像边缘方向直方图。 void ShoWEdgeHistogram(CPaintDC*Pdc) 功能描述:
生成及显示灰度图及其边缘方向直方图。 输入参数:
绘制灰度直方图的设备场境。 输出参数: 无。
(5)图像边缘图的绘制和显示
BOOL TemplateOperation(HWND h Wnd,int TemplateType,int iEnableTH) 功能描述:
对图像进行模板操作。 输入参数:
HWND h Wnd:绘制图像边缘图的窗体句柄:
Int TemplateType:指定模板的种类,这里O代表水平Sobel算子,1代表垂 直Sobel算子,2代表水平Isotropie Sobel算子,3代表垂直Isotropie Sobel算子。
Int iEnableTH:对图像边缘图进行阈值分割的阈值,如果iEnableTH等于-1则不进行阈值分割。 输出参数: 无。
第 38 页 共 46 页-
5.8 系统的界面设计
图5-2系统的主界面
图5-3检索结果示意图
第 39 页 共 46 页-
5.9 本章小结
本章主要介绍了基于纹理和形状综合特征检索系统的各个模块的实现。在系统的实现上,本设计将图像检索系统划分为查询、描述、提取、匹配和验证五个模块。各个模块都设计,本章主要按照模块的划分方式,对设计的图像检索系统进行了介绍。整个系统共分为5个主要模块:查询模块、描述模块、匹配模块、提取模块以及验证模块,并对这5个模块的功能作出了描述。用户发出查询要求,系统将查询要求转化为计算机内部描述,并借助这些描述与库中信息进行匹配,提取出需要的信息数据,用户对此验证后可直接使用或借以改进查询条件并开始新一轮检索。
第 40 页 共 46 页-
6. 结论与展望
6.1 总结
本论文在系统地介绍基于内容的图像检索技术的现状和发展概况的基础上,将CBIR在电力设备图像管理中的应用作为本论文研究的重点。针对电力设备图像库的特点,选取合适的特征进行提取。主要做了以下一些工作:
(1)通过对CBIR技术的深入研究,结合电力系统领域内的应用需求,总结了一种CBIR技术在电力设备图像中的应用方法。
(2)分析了电力设备图像检索系统的基本技术模块。研究了几种具体的图像检索方法,包括基于颜色、纹理、形状及空间关系特征的方法,并分析了它们各自的优缺点和适用范围。针对电力设备图像的特点,选用形状特征作为电力设备图像检索中的主要特征抽取。
(3)为了改善图像质量,提高检索的精确度,运用灰度变换、直方图均衡法、中值滤波法对电力设备图像进行了预处理。
(4)在分析了电力设备图像库特点的基础上,提出了将基于形状不变矩的图像检索算法应用到电力设备图像检索中,完成了形状特征提取模块,提取出电力设备图像的7个形状不变矩和离心率特征,并从不同电力设备图像的特征中分析得出规律。
(5)验证了提取出的7个形状不变矩有平移、旋转、和尺度不变性。
(6)在理论分析的基础之上,设计了基于形状特征的电力设备图像检索系统的框架,主要是作为检索算法的测试平台,通过实验验证了方法的有效性。
由于时间的仓促和自身能力的问题,这个系统还有许多不尽如人意的地方,主要体现在以下的几个方面:
(1)系统未能实现与图像数据库的互动
目前在系统的实现上,是用以指定一个文件夹的方式来打开图像数据库,这样系统的检索范围就被在一个图像文件夹。这种做法实现起来是很容易的,但显然不是最好的方法。最理想的方法是设计一个ODBC数据接口,使检索系统能够直接访问图像数据库。这样一方面可以扩大应用范围,可用于不同的图像数据库,另一方面可以更好的管理被检索的图像和检索的结果。
第 41 页 共 46 页-
(2)检索算法未生成的模块
目前系统所采用的算法与整个系统集成在一起,我的设想是将算法和系统分开编写,例如将算法编译成dll模块供系统在需要时调用。这样做的好处有两个:其一是可以方便管理算子;其二是当需要添加新的算法模块时,只需要编写dll 模块,而不需要将整个系统重新编译。 (3)边缘点的确定算法不够精确
基于形状特征的图像检索技术研究目前所采用的边缘的的算法还不能排除噪点的影响,应设法找到一种更好的算法。我正在阅读相关的文献资料,希望在这方面有所突破。 6.2 展望
本文对CBIR技术在电力设备图像检索中的应用只是做了初步的探讨和应用研究,所设计和实现的算法也只具备演示性的效果,还没有达到理想的效果和实用性的高度,为了开拓CBIR技术在电力系统设备管理中的最佳应用效果,将来还有以下几点有待进一步的研究:
(1)可以加入纹理特征的提取,实现形状特征和纹理特征相结合的综合检索 效果会更好。
(2)图像预处理。本文中统一将输入图像转化成BMP格式,并将图像统一大 小,在实际应用中应该能接受多种格式及大小的图像,然后由系统统一处理。 (3)实现相关反馈功能。相关反馈可以实时地修改系统的查询策略,从而为 图像检索系统增加了自适应功能,能够有效的提高检索精度,缩小图像高层语义和用户感知主观性之间的差异,进一步能学习用户的检索需求,从而有效的提高检索性能。CBIR技术的实用化过程中,相关反馈必不可少。
(4)鉴于用户习惯了基于文本检索的系统,实用的图像检索系统必须考虑到 用户的检索习惯,所以一个实用的系统必是基于关键词检索和基于内容检索技术相结合的系统,所以要考虑实现两者的结合。
第 42 页 共 46 页-
参考文献
[1]ChangNS,Fu KS.Query-by-pictorial example.IEEE Software Eng,1980,6(6).519~524
[2]章毓晋.基于内容的视觉信息检索.北京:科学出版社,2003,1~14,58~ [3]John P Eakins,Margaret E Graham.Content-based Image Retrieval.A report to the JISCTechnology Applications Programme,1999(1)
[4]茹立云,彭潇,苏中,等.基于内容图像检索中的特征性能评价.计算机研究与发展, 2003,40(11):1566~1570
[5]周文昭,夏定元,周曼丽,等.基于内容的图像检索系统的最新进展.计算机工程与应用,2003,26:112~115
[6]唐立军,段立娟,等.基于内容的图象检索系统.计算机应用研究,2001,7:41~45
[7]刘忠伟,章毓晋.基于特征的图象查询和检索系统.应用基础与工程科学学报,2000, 8(1):69~77
[8]刘继敏,史忠植.一种基于形状的图像信息检索方法.软件学报,2000,11(1):110~115
[9]马跃先,胡晓改,渊.二值商标图象检索系统.山西大学学报,1998,21(2): 137~143
[10]李向阳,庄越挺,潘云鹤.基于内容的图像检索技术与系统.计算机研究与发展, 2001,38(3):344~354
[11]陈跃峰,肖自美,杨灿.基于内容检索的图像系统的关键技术及其实现.计算机工程与应用,2000,10:17~19
[12]方艳梅,杨灿,等.支持基于内容检索的图象数据模型的设计.计算机应用,2001,21(7):23~26
[13]李国辉,曹莉华,等.基于内容的多媒体数据查询和检索.小型微型计算机系统,1998, 19(4):1~8
[14]杨娜,等.基于内容的图象检索中相关反馈算法综述.计算机科学,2001,28(9):105~109
[15]王文惠,周良柱,等.基于内容的图像检索技术的研究和发展.计算机工程与应用,
第 43 页 共 46 页-
2001,5:54~56
[16]谷口庆治.数字图像处理—基础篇.北京:科学出版社,2001 [17]Y.Rui,TS
Huang,and
SF.Chang.Image
Retrieval:Current
Techniques,PromisingDirections andOpenIssues.Journal of Visual Communication and Image Representation, 1999,3(10):39~62
[18]梅丽霞,田玉敏.基于区域的图像数据库检索技术研究:[硕士学位论文].西安:西安电子科技大学外部设备研究所,2003
[19]Yu Zhong,Anil K.Jain.Object localization using color,texture and shape.Pattern Recognition,2000(33).671~684
[20]MichaelJ.Swain,DannaH.Ballad.Colorindexing.InternationalJournalofComputerVision,1991,7(1).11~32
[21]B.M.Mehtre,M.S.Kankanhalli.Colormatchingforimageretrieval.PatternRecognitionLetters,1995,16(3).325~331
[22]Y.J.Zhang,Z.W.Liu,Y.He.Comparison
and
improvement
of
color-based
imageretrieval techniques.SPIE,1997.371~382
[23]J.Harfner,H.S.Sawhney,W.Equitz,M.M.Flickner,W.Niblack.Efficientcolorhistogramindexing for quadratic form distance functions.IEEE Trans.on PatternAnalysis and Machine Intelligence,1995 17(7).729~736
[24]C.Li,J.R.Smith,L.D.Bergman,V.Castelli.Sequential content-basedretrieval of composite objects.SPIE,1997.2~13 [25]A.Siebert.Segmentation based image retrieval.SPIE,1997.14~24
[26]章毓晋.图像工程(上册)—图像处理和分析.北京:清华大学出版社,1999,131~135
[27]Kenneth.R.Castleman.数字图像处理.北京:电子工业出版社,1998
[28]徐旭.基于视觉特征的图像检索系统研究:[博士学位论文].杭州:浙江大学,1999 [29]Milan Sonka,Vaclav Hlavac,Ronger Boyle.图像处理、分析与机器视觉(第二版)(艾海舟,武勃,等译).北京:人民邮电出版社,2003,39~42
[30]杨枝灵王开,等.Visual C++数字图象获取处理及实践应用.北京:人民邮电出版社.2003,130~162
processing for
第 44 页 共 46 页-
[31]卢汉清,孔维新,廖明,马颂德.基于内容的视频信号与图像库检索中的图像技术.自动化学报,2001,27(1):56~69
[32]章毓晋.图象工程(上册).北京:清华大学出版社,1999,179~252
[33]贾元元.基于形状的图像数据库检索技术研究:[硕士学位文论].西安:西安电子科技大学,2004
[34]A.Sajjanhar,G.Lu and J.Wright.An experimental study of moment invariants andFourier descriptors for shape based image retrieval.Proceedings of the Second AustraliaDocument Computing Symposium,1997(4).46~54 [35]J.T.Laaksonen,J.M.Koskela,S.P.Laakso,and imageretrieval
with
self-organizing
E.Oja.PicSOM-content-based maps.Pattern
Recognition
Letters,2000,12(21).1199~1207
[36]张锋利.基于内容的图像检索方法研究.吉林大学硕士学位论文. 2005.29-36. [37]刘继敏,史忠植.一种基于形状的图像信息检索方法.软件学报.2000,Vol.11 No.1:110-115
[38]章国宝,叶桦,陈维南.基于正交小波变换的多尺度边缘检测.中国图像图形学报,1998,3(8):651-654.
[39]杨煊,梁德群.一种基于区域一致性测度的边缘评价方法,中国图像图形学报,1999,4(3):234-238.
[40]唐良瑞,马全明,景晓军等.图像处理实用技术.化学工业出版社工业装备与信息工程出版中心,2002.
[41]陈添丁,刘济林,任志国,基于整体区域相似的互动式图像检索模型,中国图象图形学报,yol.8(A),No.7,Jul.Zoo3
[42]尹彦,基于纹理和形状综合特征的图像检索技术研究,硕士学位论文.东北大学,2008
[43]闫敬文,《数字图像处理技术与图像图形学基本教程》,科学出版社,2002 [44]阮秋琦,《数字图像处理学》,电子工业出版社,2004年第一版
第 45 页 共 46 页-
致谢
经过半年的忙碌和工作,本次毕业设计已经接近尾声,作为一个本科生的毕业设计,由于经验的匮乏,难免有许多考虑不周全的地方,如果没有导师的督促指导,以及一起工作的同学们的支持,想要完成这个设计是难以想象的。
在这里首先要感谢我的导教师张利平老师。张利平老师平日里工作繁多,但在我做毕业设计的每个阶段,从外出实习到查阅资料,设计草案的确定和修改,中期检查,后期详细设计等整个过程中都给予了我悉心的指导。我的设计较为复杂烦琐,但是张老师仍然细心地纠设计中的错误。除了敬佩张利平老师的专业水平外,他的治学严谨和科学研究的精神也是我永远学习的榜样,并将积极影响我今后的学习和工作。
最后感谢电气工程系和我的母校中北大学四年来对我的大力栽培。
作者:丁尧
第 46 页 共 46 页-
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- cepb.cn 版权所有 湘ICP备2022005869号-7
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务