基于内容的图像检索方法的研究.docx
- 文档编号:14081922
- 上传时间:2023-06-20
- 格式:DOCX
- 页数:33
- 大小:211.95KB
基于内容的图像检索方法的研究.docx
《基于内容的图像检索方法的研究.docx》由会员分享,可在线阅读,更多相关《基于内容的图像检索方法的研究.docx(33页珍藏版)》请在冰点文库上搜索。
基于内容的图像检索方法的研究
基于内容的图像检索方法的研究
摘 要
近年来,随着多媒体技术和计算机互联网技术的快速发展,数字图像的数量正以惊人的速度增长。
面对日益丰富的图像信息海洋,人们需要有效地从中获取所期望得到多媒体信息。
因此,在大规模的图像数据库中进行快速、准确的检索成为人们研究的热点。
为了实现快速而准确地检索图像,利用图像的视觉特征,如颜色、纹理、形状等来进行图像检索的技术,也就是基于内容的图像检索技术(CBIR)应运而生。
其中,颜色特征作为图像的一种重要的视觉特征,已得到广泛的应用。
本文主要研究基于图像颜色特征的检索。
选用基于颜色直方图的算法,并利用VisualBasic程序设计语言和Access数据库技术设计实现了基于颜色直方图算法的图像检索系统。
主要做法是:
采用符合人类视觉特征的HSV颜色空间来表示图像的颜色特征,利用人对颜色的感知来对颜色分量进行非等间隔的量化并形成特征矢量,用相似性度量函数进行图像的相似性匹配,从而实现图像的检索。
关键字:
图像数据库;CBIR;颜色直方图;相似距离
TheResearchofContent-basedImageRetrievalMethod
ABSTRACT
Withtherapiddevelopmentofmultimediaandcomputernetworktechnique,thequantityofdigitalimageandvideoisgoingupfabulously.Facingthevastoceanofinformationofimage,ithasagoodsensetoobtainthedesiredmultimediainformation.Currently,rapidandeffectivesearchingfordesiredimagefromlarge-scaleimagedatabasesbecomesanhotresearchtopic.
Inordertoretrieveimagequicklyandaccuratelyusingimagevisualfeaturessuchascolor,texture,shape,whichnamedcontent-basedimageretrieval(CBIR)cameintobeing.Amongthem,thecolorfeaturesasanimportantvisualfeaturesoftheimagehasbeenwidelyused.Thispaperstudiestheretrievalbasedonimagecolorcharacteristics.Usingalgorithmbasedoncolorhistogram,andtheVisualBasicprogramminglanguageandAccessDatabaseDesigntoimplementtheimageretrievalsystembasedoncolorhistogramalgorithm.Themainapproachis:
torepresenttheimage'scolorcharacteristicsconsistentwithhumanvisualcharacteristicsoftheHSVcolorspace,usingtheperceptionofcolortothecolorcomponentunequalintervalquantizationandtoformafeaturevector,usingmeasurefunctiontomatchimagesimilarity,inordertoachieveimageretrieval.
Keywords:
Imagedatabase;CBIR;Colorhistogram;Similaritydistance
目 录
1 前言1
1.1 课题背景及研究意义1
1.2 基于内容的图像检索技术研究的现状和发展方向1
1.3 本文主要研究内容2
2 基于内容的图像检索3
2.1 概念3
2.2 特点3
2.3 CBIR过程的一般框架3
3 图像特征提取与相似性度量5
3.1 图像的文件格式5
3.2 颜色模型6
3.2.1 RGB颜色空间6
3.2.2 HSV颜色空间7
3.2.3 RGB颜色空间到HSV颜色空间的转换7
3.3 颜色量化8
3.4 颜色直方图8
3.5 基于子块颜色直方图算法9
3.6 图像的相似性度量10
3.6.1 图像的相似度10
3.6.2 相似度计算公式10
4 基于颜色特征的图像检索系统设计和实现12
4.1 系统结构设计12
4.2 图像特征数据库设计12
4.3 系统开发环境12
4.4 系统流程13
4.5 系统的实现13
4.5.1 图像的获取13
4.5.2 图像特征的提取14
4.5.3 图像的检索16
5 总结18
参考文献19
致谢20
1 前言
1.1 课题背景及研究意义
近年来,伴随着计算机网络技术和多媒体数据库技术的迅猛发展,特别是大量图像数据的广泛应用,实现图像检索成为多媒体数据库中最基本也是最普遍的要求。
传统的图像检索是基于文本方式,对图像库中的每一幅图像使用关键字进行标记,然后利用文字属性的匹配进行对图像的检索。
这种基于文本的图像检索需要人工注解的工作量很大,且文本描述很难准确的表达图像中丰富的信息,常常会因为不同人对同一内容的描述方式不同而千差万别,造成检索的准确程度降低。
在信息需求的不断增加和日益迫切的今天,原始的图像检索系统已经远远不能满足要求。
因此,基于内容的图像检索技术的研究越来越成为人们研究的热点。
特别是多媒体内容描述接口MPEG-7的制定和完善,更加推动了这一技术的开发和运用。
基于内容的图像检索技术对促进图像技术的发展具有重要的作用。
首先,在检索图像的准确度上,基于内容的图像检索技术把图像的颜色、形状、纹理等视觉特征作为图像的内容来查找和匹配图像,通过算法实现图像特征的提取和图像间的相似性匹配,提高了检索结果的准确性。
其次,随着数据库技术研究的深入、计算机视觉以及人工智能的发展,我们可以对图像的这些特征进行自动的提取和匹配,大大减少了人工的工作量,从而在提高检索准确度的同时,降低了图像检索所需要的时间。
目前,这项技术已经广泛应用于图像的网络搜索、遥感、数字图书馆、计算机辅助设计、地理信息系统、商标版权管理等诸多领域,具有广阔的应用前景。
1.2 基于内容的图像检索技术研究的现状和发展方向
目前,对图像的检索在图像索引与研究中应用最为广泛,基于图像颜色特征、纹理特征、形状特征和物体空间方位的检索方法是比较成熟的几种。
近年来,基于内容的图像检索引起了多交叉学科研究人员的注意。
在国外,特别是在美国等发达国家,这项技术已成为一个研究热点。
一些科研部门、高等院校、商业公司甚至于政府机构都纷纷投入大量人力和物力进行系统的研究和开发,以期取得领先地位。
目前已经推出了一些CBIR系统的产品,如美国的IBM公司、Virage和Excalibur都已经开发出了的基于图像内容的相似性特征的图像库检索引擎,并在网上提供了演示站点。
国内的研究主要集中在基于图像颜色的查询,也有一部分基于纹理和形状的查询。
自20世纪90年代以来,基于内容的图像检索成为一个研究热点。
目前,该技术已成功应用于人脸识别技术;针对商标与设计专利类的图像进行检索,防止专利纠纷的产生。
除此之外,它还可以解译影像数据中的建筑、村庄、耕地等不同种类的地形信息,实现对遥感图像的检索。
基于内容的图像检索技术研究的发展方向主要有:
(1)两类图像检索技术的结合
传统的图像搜索引擎主要侧重于对图像内容的文本描述,而图像库检索技术则更侧重于通过算法对图像内容的特征的提取和匹配,它们虽然侧重不同却相互补充。
如果能将二者结合起来,取长补短,则图像检索技术必将会有新的进展。
(2)对基于内容的编码技术的研究
自20世纪90年代起,国际上就有了对基于内容的图像检索技术的研究。
从基本的颜色检索,到综合利用多种图像特征进行检索,推出了大量原型系统。
其中,部分已经投入到实际应用中并取得良好效果。
在Internet环境下,MPEG专家组制定了一个基于内容的多媒体描述方案,即MPEG-7标准,对各种不同类型的多媒体信息内容的描述方式进行了标准化定义,从而实现CBIR与TBIR(基于图像文本特征的检索)的互连。
总之,该项技术在实际中的应用会越来越广泛,而且必将在各个领域当中占据主导地位,并带动相关产业的发展,促进多媒体信息化的交流。
1.3 本文主要研究内容
本文在介绍基于颜色特征的图像检索技术的基础上,将颜色直方图作为研究重点,对CBIR技术进行了较为全面的研究,以多媒体图像数据库为平台,将CBIR作为一种信息检索技术,应用到图像数据库中,作为检索引擎来实现基于颜色特征的图像检索功能。
(1)详细讨论了常见的颜色特征表示方法以及从RGB模型到HSV模型的转换和颜色特征的提取方法,采用符合人类视觉感知特征的HSV模型来提取颜色特征,并按照人的视觉分辨能力将颜色量化为36柄的一维特征向量。
(2)运用相似性度量算法,用户可以根据自己的兴趣,针对不同的区域,灵活地调整权重系数,更准确地实现图像颜色特征的匹配。
(3)在开发工具上,选用VisualBasic6.0程序设计语言,对图像进行了定义,完成图像特征的读入和提取,用Access数据库存放图像的特征索引向量,并通过颜色匹配算法实现基于图像颜色特征的检索功能。
2 基于内容的图像检索
2.1 概念
基于内容的图像检索(CBIR)是指根据图像颜色、纹理、形状等视觉特征,从已定的图像库中查找含有特定特征的图像。
与传统的图像检索手段不同,它融合了图像理解技术,在输入图像的同时将其相应的特征向量也存入特征库。
在进行图像检索时,对每一幅给定的关键图,进行图像分析,并提取图像的特征向量。
将该图像的特征向量和特征库中的特征向量进行匹配,根据相似距离的大小在图像库中进行搜索就可以得到所需要的检索图了。
2.2 特点
CBIR方法利用图像的视觉特性,实现了用图像来检索图像。
这比利用传统的文字标注等要有效的多。
基于内容的图像检索是根据图像的颜色、形状、纹理等特征以及这些特征的组合来查询图像的,这是计算机图像处理和数据库技术的很好的结合。
它具有以下几个显著的特点[1]:
(1)用于检索的是反映图像内容的各种量化特征;
(2)使用基于相似性度量的近似查询;
(3)大多采用实例查询QBE(QueryByExample)方法。
对于基于内容的图像检索有三个关键:
一是要选取恰当的图像特征;二是要采取有效的特征提取算法;三是要有准确的特征匹配算法。
2.3 CBIR过程的一般框架
CBIR系统可以看作是一个用户和图像数据库之间的一个界面或通道[2],其过程的一般框架可以描述为如图2-1。
图2-1 基于内容的图像检索
各模块的作用:
(1)查询模块:
为用户提供多样的查询手段,以支持用户进行多种类型的查询;
(2)描述模块:
将用户查询的外部表达转化成为对图像信息内容的内部表达和描述;
(3)匹配模块:
将查询描述与库中被查询信息的描述进行匹配,确定它们内容的一致性和相似性;
(4)提取模块:
把满足既定条件的信息自动的从库中提取出来;
(5)验证模块:
为用户提供方便的验证手段以评价提取的效果。
目前,很多基于内容的图像检索系统中还包含有用户反馈机制,其主要功能是收集检索出的图像信息,根据用户自己的期望,对搜索到的图像进行粗略的判断,然后修改查询信息并提交给查询模块。
3 图像特征提取与相似性度量
基于内容的图像检索系统在进行图像检索的过程中,将关键图和被检索的图像进行图像分析,提取出这些图像的特征向量,再将关键图的特征向量和被检索的图像的特征向量进行相似性匹配,根据相似距离检索到期望的图像。
由这个工作原理可知,该系统的关键点包括:
选取恰当的图像格式,以便提取其有效的颜色特征;选择准确的特征匹配算法,从而实现图像的相似性匹配。
因此,如何恰当的提取颜色特征,以及对颜色特征如何进行有效地抽取和匹配也就成为CBIR研究领域的重点。
3.1 图像的文件格式
本文采用的图像格式是BMP格式。
BMP文件是常见的图像文件格式之一,是Windows操作系统中的标准文件格式。
由于不进行图像压缩,所以BMP图像文件能够表达丰富的色彩信息。
BMP图像文件的结构可以分为四个部分:
文件头数据结构、文件信息数据结构、调色板以及图像数据。
其中,文件头的长度为固定值54个字节;调色板数据对所有的不超过256色的图像模式都需要进行设置,即使是单色图像模式也不例外;图像数据既可以采用一定的压缩算法进行处理,也可以不必对图像处理软件进行压缩处理,这不仅与图像文件的大小有关,而且也与对应的图像处理软件是否支持经过压缩处理的BMP图像文件相关[3]。
图像文件的文件头和文件信息头的定义形式如下:
(1)文件头(BITMAPFILEHEADER)
PublicTypebitmapfileheader
bftypeAsInteger
bfsizeAsLong
bfreserved1AsInteger
bfreserved2AsInteger
bfofbitsAsLong
EndType
该程序中定义了BMP文件的类型、大小,以及图像数据的偏移量,即从文件头开始多少个字节后是图像数据的起始。
(2)文件信息头(BITMAPINFOHEADER)
PublicTypebitmapinfoheader
bisizeAsLong
biwidthAsLong
biheightAsLong
biplanesAsInteger
bibitcountAsInteger
bicompressAsLong
bisizeimageAsLong
bixpelspermeterAsLong
biypelspermeterAsLong
bicirusedAsLong
BMP文件信息头基本上包含图像的所有重要的信息,包括宽度、高度和每像素的位数。
3.2 颜色模型
所谓颜色模型[2]是指某个三维颜色空间中的一个可见光子集,包括某个颜色域的所有颜色。
常见的颜色模型包括RGB(红、绿、蓝),HSV(色调、饱和度、亮度),CMYK(青、洋红、黄、黑)等。
其中,HSV空间是一种符合人类视觉感知特征的颜色空间,特别适合于人类肉眼对颜色的识别,因此被广泛应用于计算机视觉领域。
3.2.1 RGB颜色空间
RGB颜色空间是一种常用的颜色空间。
目前,图像采集系统以及彩色显示器等硬件显示设备大都采用了RGB颜色空间来表示颜色。
数字图像一般也都采用这一颜色空间来表示。
如图3-1所示,RGB颜色模型是三维直角坐标颜色系统的一个单位正方体。
它以红(R)、绿(G)、蓝(B)作为三基色。
在空间坐标系的原点上,三基色的亮度均为零,此时代表黑色;当三基色同时达到最高亮度时为白色;由等量的三基色组合而成的颜色是灰色,这些灰色点均落在RGB彩色立方体的对角线上。
图3-1 RGB颜色空间
虽然RGB空间模型在实际生活中广泛应用,但是它并不具有视觉一致性,不符合人对颜色的感知心理,且RGB颜色空间上的距离并不代表人眼视觉上的差异。
因此,需要用另一种符合人的视觉感知的颜色模型来表示颜色。
3.2.2 HSV颜色空间
HSV颜色空间具有视觉一致性,它比RGB颜色空间更符合人的视觉特性。
HSV颜色空间把常见颜色表示为三种属性:
色调H(Hue)、饱和度S(Saturation)和亮度V(Value)。
HSV模型对应于圆柱体坐标系的一个圆锥子集。
圆锥的顶面对应于V=1,色调H又绕V轴给定,饱和度S取值从0到1,由圆心向圆周过度。
H表示色调信息,即所处的光谱颜色的位置,通常由颜色名称来辨别,如红、橙、黄、绿等,它用角度-180~180或0~360来度量。
饱和度S为一比例值,指颜色的深浅程度,范围从0%到浓度完全饱和的100%,它表示所选颜色的纯度和该颜色最大的纯度之间的比率,即在纯色中包含白色光的成分。
V表示色彩的明亮程度,0%为最暗的黑色,而100%为最亮的白色[3]。
HSV颜色模型如图3-2所示。
图3-2 HSV颜色空间模型
HSV颜色空间直接对应于人眼色彩视觉特征的三要素,通道之间各自独立,因此可以独立感知各颜色分量的变化,其中色调尤其影响着人的视觉判断。
因此在基于内容的图像检索中,应用这种颜色空间模型会更适合用户的视觉判断。
3.2.3 RGB颜色空间到HSV颜色空间的转换
一般情况下,人们认识到的图像都是在RGB颜色空间描述的,但在图像检索的应用过程中,HSV空间模型更适合于人的视觉感知。
因此,应该将图像从RGB空间模型转换到HSV空间模型[4]。
设r,g,b
[0,1,2,……,255],由RGB颜色空间模型到HSV颜色空间模型的转化为:
设v’=max(r,g,b),定义r’,g’,b’为:
r’=
,g’=
,b’=
,则v=v’/255,v
[0,1]
,S
(3-1)
5
b’,若r
max(r,g,b)且g
min(r,g,b)。
1
g’,若r
max(r,g,b)且g
min(r,g,b)
60h=1
r’,若g
max(r,g,b)且b
min(r,g,b),
(3-2)
3
b’,若g
max(r,g,b)且b
min(r,g,b)
3
g’,若b
max(r,g,b)且r
min(r,g,b)
5
r’,否则
这里r,g,b
[0,255],h
[0,360][4]。
3.3 颜色量化
颜色量化是指确定一组颜色以表示图像的颜色空间,然后确定从颜色空间到选定颜色集合的映射,即将颜色空间映射到一个给定大小的子集中,并使其总体误差最小。
因为CBIR中采用的HSV颜色空间具有视觉一致性的特点,而且人眼分辨颜色的能力是有限的[5]。
因此,在量化时可以考虑按照人的颜色感知对颜色空间进行非等间距的量化,量化结果为:
0,H
[0,60]
1,H
[60,120]0,V
[0,0.3]
H=2,H
[120,180],
,V=1,V
[0.3,0.8](3-3)
3,H
[180,240]2,V
[0.8,1]
4,H
[240,300]
5,H
[300,360]
量化结束后,可以将HSV颜色空间划分为LH
LS
LV个相似色空间,其中量化级数LH=6,LS=2,LV=3。
故把三个分量合并成一个一维的特征矢量就是L=LS
LV
H+LV
S+V=6H+3S+V。
这样H、S、V三个分量分布在一维矢量上,L的取值范围为[0,35],即颜色量化后的图像可以得到36柄的一维颜色直方图[3]。
3.4 颜色直方图
对于基于颜色的图像检索系统,关键问题之一是对颜色特征的提取。
目前,大部分基于颜色的检索系统都是以比例分布作为颜色的基本特征,这也就是图像的颜色直方图。
颜色的直方图特征是图像检索领域中提出最早、算法最简单,而且具有尺度不变性和旋转不变性[2],因此成为使用最为广泛的颜色特征之一。
它是在确定颜色空间的基础上,统计出图像中每种颜色分量的像素数占图像总像素数的比值,从而得到图像各种颜色分量的比例分布直方图,将其转换成为一维的特征向量,作为这幅图像的特征。
颜色直方图是颜色信息的函数,它表示图像中具有同颜色级别的像素的个数,其横坐标是颜色级别,纵坐标是颜色出现的频率,即像素的个数。
颜色直方图是一种概率统计的方法。
它将图像中各颜色像素的个数进行统计,并用直方图的形式表达出来,具体定义为:
H(P)=(hc1(L),hc2(L),hc3(L),……,hci(L)……)
其中,hci(L)=
,||Lci||表示图像中所有颜色为Ci的像素的个数。
这种颜色直方图只反映了图像中所占的百分比,而丢失了图像颜色的空间分布信息,也就是说两幅颜色空间分布完全不同的图像(如天空和海洋)仍可以具有相同的直方图,这势必造成检索的误差。
这时,可以加进颜色的空间分部信息。
3.5 基于子块颜色直方图算法
一般颜色直方图在算法上比较简单,但图像检索时却不够准确,因为颜色直方图相似的图像可能内容差别很大。
这时便可以通过利用基于子块颜色直方图算法来实现图像的检索。
将图像划分为几个单元,然后分别计算这些单元颜色直方图。
在计算图像的相似距离时,先计算每张图像中每个单元之间的距离,然后将这些距离组合起来,便可以得到图像与图像的距离。
基于子块颜色直方图的图像检索方法可以采用一种比较简单的固定划分策略,将图像分解成为若干个大小相同并且互相不重叠的单元区域。
同时,用户可以对自己感兴趣的子块增大权重,提高检索准确率。
通常情况下,主要内容位于图像的中间区域,图像的四周大多是背景画面。
因此可以采用这样一种分块方法[3]:
图3-3 分块策略
由此划分方法可知:
图像的主要区域位于第5块,其余的标号为1、2、3、4的属于背景。
在特征的提取过程中,提取第5块的主颜色,提取1、2、3、4块的平均颜色,剩下图像的四角部分对图像特征影响不大,往往可以忽略。
提取特征的方法为:
(1)计算各个分块的一般颜色直方图
设二维数组L[I,j]中存放的是图像各像素点量化后的HSV颜色值,其中i,j为各像素点坐标。
数组PicCenter[k]中存放中心区域的一般直方图,k为量化后的HSV颜色值。
(2)然后计算第5块(中心区域)的主颜色m5
主颜色是指图像中出现次数最多的那种颜色,即main=取下标(max{h[c]})。
将设定好的颜色区域窗口沿直方图从左向右移动,并记录窗口内颜色的总频数。
得到总频数最大的窗口位置时,此窗口内颜色的加权平均值即为图像的主颜色,即main=
h[ci]/
。
(3)计算1、2、3、4块的平均颜色ei,i=1,2,3,4
平均颜色是一般直方图颜色的加权平均:
mean=
h[c]/
。
(4)图像分块颜色特征向量
由第5块的主颜色和1、2、3、4块的平均颜色共同组成了分块颜色特征向量:
F={m5,e1,e2,e3,e4}。
3.6 图像的相似性度量
在基于内容的图像检索中,特征的相似距离的度量也是需要解决的重要问题之一。
只有在得到了图像的特征后进行特征的相似性度量,才能有效的根据相似距离进行比较,准确地实现图像检索。
3.6.1 图像的相似度
为了达到图像检索的目的,需要对提取的特征进行相似度计算。
相似度是以数值的形式来表示两幅图像之间的相似程度的度量结果,即相似距离。
将图像的特征看作是坐标空间中的点,两个点的接近程度即相似度通常用他们之间的距离表示,不同类型的特征数据所采用的相似性度量函数是不一样的,相似度公式的选择的恰当与
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 内容 图像 检索 方法 研究