基于内容的视觉信息检索译文.docx
- 文档编号:1248851
- 上传时间:2023-04-30
- 格式:DOCX
- 页数:23
- 大小:240.02KB
基于内容的视觉信息检索译文.docx
《基于内容的视觉信息检索译文.docx》由会员分享,可在线阅读,更多相关《基于内容的视觉信息检索译文.docx(23页珍藏版)》请在冰点文库上搜索。
基于内容的视觉信息检索译文
第三章基于内容的视觉信息检索
OgeMarques,BorkoFurht
FloridaAtlanticUniversity,USA
本章主要对视觉信息检索(VisualInformationRetrieval,简写为VIR)系统特别是基于内容的视觉信息检索(Content-BasedVisualInformationRetrieval,简写为CBVIR)系统领域作了一个综述。
本章阐述了该领域的一些主要概念以及系统设计时所面临的主要问题,并回顾评价了当前已有的一些系统原型以及商业上的解决方案,同时指出了该领域中比较有前途的研究方向。
绪论
近年来,数字化格式的视听信息量成指数级增长,每天都会有成G字节级的新的图像、声音和视频产生和存储,这些构成了一个巨大的、分布式的、未组织的多媒体信息库,其中的大部分信息可以通过互联网访问到。
多媒体信息的数字化、压缩和存储已经变得很普及、很简单,而且成本也大大降低了,这些都可以通过现存的大量的硬件和软件来完成,但是如果以后要对这些信息进行高效率的检索则需要进行大量的额外工作。
对多媒体库中多媒体数据的检索主要有三种方法:
1、自由浏览(Freebrowsing):
用户顺序浏览图像、声音和视频文件集,当发现所想要的信息时便停止浏览。
2、基于文本的检索(Text-basedretrieval):
在编目阶段(cataloguingstage)给视听文件加上文本信息(元数据),在检索阶段,这些附加的文本信息被用来引导常规的基于文本的搜索引擎查找所需要的数据。
3、基于内容的检索(Content-basedretrieval):
用户搜索多媒体库中有关图像、声音或者视频片断的实际内容的信息。
基于内容的搜索引擎将这些信息按照某种方式进行转换以便对数据库进行查询,检索出能尽量满足用户要求的结果。
前两种方法都有严重的局限性和可扩展性问题。
自由浏览只适用于临时用户使用,而不适用于那些经常要获取具体的多媒体信息以进行专业应用的用户。
这是一个冗长、效率低下而且耗时的过程,对大型的数据库而言,这是完全不实用的。
基于文本的检索在编目阶段存在着两个重大的问题:
a)需要花费相当多的时间和精力手工对每一幅独立的图像或者视频片断进行标注;
b)对内容进行标注时由于人的主观性而带来了不精确性。
这两个问题随着多媒体信息的搜集量的增大而更加严重,很可能会使得后期的检索出现错误。
基于文本的检索需要前期对多媒体数据进行标注,这样导致它的效率低下且具有很大的局限性,为了解决这些问题,来自于图像处理和计算机视觉方向的研究人员开始研究更可行的多媒体信息(特别是图像和视频片断)检索方法——基于内容的检索方法,即图像和视频将根据它们的视觉内容(如:
颜色、纹理、对象的形状和运动,等等)建立索引,而不是手工用关键字进行标注。
基于内容的视觉信息检索(CBVIR)的研究始于上个世纪九十年代早期,而且很有可能在二十一世纪的最初十年里持续下去。
目前,许多大学和大公司的研究小组都在这个领域积极地进行研究,许多系统原型和商业产品也已经研制成功,但是目前的解决方案与视觉信息检索的最终目标,即使用户以快速、高效、语义上有意义的(semanticallymeaningful)、友好的且位置相对独立(location-independent)的方式从海量的视觉信息中检索出图像或者视频片断,仍有很大的差距。
本章下面的内容组织如下:
在第二节我们将回顾CBVIR系统的基本原理;第三节将讨论设计一个CBVIR系统的主要问题;第四节概述现存的(包括商业性的和研究性的在内)一些CBVIR系统;第五节叙述在这一领域出现的的一些open研究问题(openresearchproblems);第六节描述了作者们开发的一个CBVIR系统——MUSE的主要特征;最后,第七节是对本章的总结评论。
CBVIR系统基本原理
预备知识
视觉信息检索(VIR)是计算机科学与工程学科中一个相对比较新的研究领域。
与传统的信息检索类似,VIR系统的主要目标是检索出所有的与用户的查询相关的图像(或图像序列),同时在检索的结果中应尽可能的去掉不相关的图像。
对信息的检索与对数据的检索的着重点恰恰相反。
视觉信息检索系统必须能够解释文档(图像)的内容并将它们按照与用户查询的相关程度进行排列。
这个解释过程包括从文档(图像)里抽取(语义)信息并用这些信息与用户要求进行匹配。
视觉信息检索研究的发展得到了多个研究领域的支持(如图1所示),尤其是:
基于文本的信息检索,图像处理和计算机视觉,模式识别,多媒体数据库组织,多维索引(multidimensionalindexing),psychologicalmodelingofuserbehavior,人机交互,等等。
图1视觉信息检索结合了许多研究方向
VIR系统根据用于查询检索图像或视频文件的属性的不同可以大体上可以分为两代(DelBimbo,1999):
•第一代VIR系统:
使用文本进行查询,例如查询“红色的法拉利”或者“凡高的作品”。
它们非常依赖于元数据(字符串,关键字,或者完整的脚本fullscripts)
•第二代(CB)VIR系统:
支持基于内容的查询,对图像而言,其中内容的概念包含:
感觉属性(例如:
颜色、形状、纹理),语义上的基本要素(例如:
对象、角色、场景),还有主观的属性(例如:
印象、情绪和与感觉属性相关的意图)。
许多的第二代系统都将基于内容的技术作为一个补充,而不是选择代替基于文本的方法。
一个典型CBVIR系统的体系结构
图二显示了一般CBVIR系统的结构图,系统的主要组成部分有:
•用户界面(Userinterface):
友好的图形化用户界面,用于向数据库提出查询,浏览结果,查看选中的图像或者视频片断;
•查询/搜索引擎(Query/searchengine):
负责根据用户提交的参数在数据库中进行搜索;
•数字图像和视频存储器(Digitalimageandvideoarchive):
数字化、压缩的图像和视频片断的存储库;
•视觉信息摘要(Visualsummaries):
图像和视频内容的简单表示,例如图像的索引图像或视频的关键帧;
•索引(Indexes):
图像或视频片断的指针;
•数字化和压缩(Digitizationandcompression):
将图像和视频片断转化为压缩的数字化格式的硬件和软件;
•编目(Cataloguing):
从原始图像和视频中抽取特征建立相应的索引。
图2:
CBVIR系统结构图
由于大量现成的硬件和软件的存在,数字化和压缩过程已经变得相当简单。
许多情况下,图像和视频的生成和存储都直接使用压缩的数字化格式。
编目阶段的工作主要是从图像和视频片段的视觉内容中抽取特征。
特别的,在处理视频的情况下,原始的视频片断被分成若干块,这些块被成为场景(scenes),它们还可以被进一步细分为镜头(shots)。
每一个有意义的视频单位都被编上索引,同时系统存储一个相对应的视觉信息摘要,代表性的为一个关键帧(keyframe)。
在处理图像的情况下,相对应的过程为对象的分割过程,该过程已在少数系统中得到实现。
在两种情况下,元数据都是在编目阶段中被加入到视觉内容中。
基于文本的视觉信息检索系统必须要用手工给图像和视频文件添加元语言,而CBVIR系统则最低限度或者根本不使用元语言。
数字化、压缩和编目一般而言都是离线完成的。
一旦这三个步骤完成,数据库中不但包含了这些图像和视频文件本身,还可能包含这些文件或片段的简化表示以及用作相应图像或视频的指针的索引集。
用户与CBVIR系统的在线交互如图2的上半部分所示。
用户通过图形用户界面(GUI)提出查询,系统根据用户所提交的查询由搜索引擎查找与所需图像或视频文件相对应的索引,最终的结果将通过一种易于浏览查看的方式返回给用户,同时还应当可以根据部分返回结果来改进查询。
用户观点(Perspective)
用户接口是CBVIR系统的一个极为重要的组成部分。
理想的用户接口应当是简单的、容易的、友好的、功能的(functional)并且是可定制的。
它应当以一种清楚直觉的方式提供用户浏览、查看、搜索和检索的能力。
这种集成是非常重要的,因为用户不会一直只是由查询搜索引擎得到最佳匹配,有时用户需要检查最初少数的最佳匹配,浏览它们,查看它们的内容,改进查询,最终检索到所要的图像或视频片断。
大多数VIR系统允许使用如下所述的多种不同的方式中的一种或多种对视觉信息数据库进行搜索:
•交互式浏览(Interactivebrowsing):
方便那些对要搜索的图像或视频没什么了解的用户使用。
聚类技术可以用来将视觉上相似的图像组织成组,同时可以最小化显示给用户的图像中非用户要求的图像数量。
•Navigationwithcustomizedcategories:
(leisureusersoftenfinditveryconvenienttonavigatethroughasubjecthierarchytogettothetargetsubjectandthenbrowseorsearchthatlimitedsubsetofimages.)使用户方便地对主题层次进行导航以找到目标主题,然后浏览或搜索这个图像的子集。
•使用X进行查询(QuerybyX)其中‘X’可能为:
•一幅实例图像(animageexample):
许多系统允许用户指定一幅图像作为实例并且搜索与它最相似的图像,按照相似度评分的递减顺序进行排列;
•一幅草图(avisualsketch):
一些系统提供用户一系列的工具,用户可以将头脑中的图像或视频片断用草图画出来;
•视觉特征的详细说明(specificationofvisualfeatures):
视觉特征的详细说明都直接给出,这样可能会吸引到更多有机数的用户;
•一个关键字或者完整的文本(akeywordorcompletetext):
第一代VIR系统依赖于用户输入的关键字,用户查找那些事先用关键字标注过的视觉信息。
我们希望查询操作应该尽可能的简单、直观而且尽量接近与人对相似性的感知。
用户会更喜欢系统提供像“显示更多与此图像相似的图像”这样的功能选项,而不是提供一个复杂的交互工具来编辑图像的颜色直方图并执行新的搜索。
后一种方式可能会有利于有经验且有图像处理方面知识的用户,但它并不适合一般用户所以具有一定的局限性。
我们认为,理想的CBVIR系统查询应当对用户隐藏复杂的查询处理技术内幕。
对视觉媒体的搜索应当像“当我看到它时,我便知道它”那样具有不精确性(Asearchthroughvisualmediashouldbeasimpreciseas“IknowitwhenIseeit.”)。
设计者的观点
设计一个CBVIR系统的一些主要方面有:
特征的抽取和表示,降低维数处理(dimensionreduction)和多维索引的建立,图像语义的抽取,以及用户相关反馈机制的设计。
下面的章节将会对这些要点进行更为详细的研究。
特征的抽取和表示
CBVIR系统应该能够自动地抽取用于描述图像或视频内容的视觉特征。
这些特征包括颜色、纹理、大小、形状和运动信息。
在特定的上下文中,特征的抽取过程可以被扩展,以发现其它专门的属性,例如:
人脸或者对象。
由于感知的主观性,已知的特征并不存在着最好的表示方法。
举个例子说,颜色信息可以用不同的颜色模型(如:
RGB、HSV、YcbCr)和数学结构(如颜色直方图、颜色矩colormoments、colorsets或者颜色相关曲线图colorcorrelograms)来表示。
与此类似的,纹理可以使用共生矩阵、Tamura纹理特征或者小波(Wavelets)来表示。
降低维数处理(DimensionReduction)和多维索引的建立
抽取出的特征聚合成某种合适的数据结构或者数学结构(例如:
标准化特征向量),另外选择合适的度量标准(例如:
欧几里德距离)来度量一幅图像与任何其它图像之间的相似度。
在这个阶段,主要的问题有:
特征向量的维数比较高;欧几里德距离度量具有局限性,虽然它在数学方面是比较完美的,但是它不能有效地模拟人的视觉感知。
高维索引的解决方案包括:
降低特征向量的维数以及使用高效的多维索引技术。
降低维数一般而言或者用Karhunen-Loeve转换或者使用聚类技术。
多维索引技术的实例包括使用专门的数据结构(例如:
k-d树、R-树和它们的变形)。
为了解决欧几里德相似度量的局限性,研究人员提出了使用聚类和神经网络的方法。
图像语义的抽取
人对视觉内容的感知很大程度上依赖于场景的高层语义信息。
如今的计算机视觉技术只是低层次的(单个象素级的)研究。
基于低层特征的CBVIR系统只能提供如下的一些查询:
•查询所有的含有30%的红色、10%的橙色以及60%的白色象素点的图像,其中橙色的RGB定义为:
R=255,G=130,B=0。
•查询所有的图像,特征为蓝蓝的天空下一片绿色的草地。
•查询所有的图像,它们是某特定图像的旋转样式。
在通常情况下,用户都试图寻找所需图像的高层语义特征,例如:
“一个漂亮的玫瑰花园”,“一个击球手打中一个棒球”或者“一辆贵重的赛车”。
在低层特征与高层语义之间并不存在一个简单直接的映射。
这两者之间的距离通常被称作“语义鸿沟”。
如今有两种方法可以用来最大程度的缩小语义鸿沟。
第一种是给图像加入尽可能多的元语言,这种方法早已被讨论过而且被认为是很不现实的;第二种是结合学习算法使用用户相关反馈技术进行大量的用户交互,使得系统能够学习理解查询操作的语义上下文。
相关反馈
早期在CBVIR领域努力要实现的主要目标是开发全自动、开放循环(open-loop)的系统。
研究者们希望当前的计算机视觉和图像处理技术能足够应付图像的查询和检索。
这些系统的成功率也鼓舞了研究者们开始尝试另一种不同的途径,即强调交互性以及比较明确地将用户考虑到处理循环中。
这种改变的例子可以从MIT多媒体实验室研究人员在该领域的研究工作中看出,他们从对“自动的”Photobook的研究转入到对“交互式的”FourEyes的研究。
“相关反馈”主要指的是这样的一个过程:
系统从用户那里搜集关于特征、图像、图像区域或者局部的返回结果的相关性信息。
这种反馈可以用许多种方法来实现,每一种系统都可以按某种特定的方式使用反馈来提高系统的性能。
相关反馈的作用在于将查询向相关图像的方向“转移”,避开不相关的图像(Gevers,Smeulders,1999)。
相关反馈机制已经在当前的CBVIR系统中得到应用,例如:
MIT的FourEyes系统,UIUC的MARS系统和NEC的PicHunter系统,等等。
在支持相关反馈的CBVIR系统中,一个典型的搜索包括查询以及后续重复进行的用户反馈。
相关反馈的使用使得用户与系统的交互更加简单,更加自然。
通过选择图像、图像区域或者图像特征,用户可以用这样那样的方式告诉系统他的要求,而没有使用草图或者关键字等方式来描述用户要求时系统所承受的负担。
如何使用用户交互得到的信息以及如何提炼CBVIR系统要返回的结果有许多种方法。
有一种途径着重于查询阶段,试图使用相关反馈得到的信息来改进查询;另一种选择是使用相关反馈来修改特征的权重,例如MARS中使用的方案;第三种思路是使用相关反馈来构造新的特征;第四种可能性是使用相关反馈信息来更新数据库中的每幅图像就是目标图像的概率,也就是通过用户与系统进行交互来预测目标图像。
后一种方案已经在PicHunter系统中得到采用。
系统设计要点
CBVIR系统的设计过程中出现了很多问题和挑战,其中的一些已经得到了总结(Marques,Furht,1999)。
基于我们开发MUSE系统的经验,我们总结了CBVIR系统设计者在开始实现CBVIR原型之前所必须要解决的一系列的问题。
•系统将要使用哪些特征以及如何引入?
特征抽取阶段是这个难题中相当重要的一块。
好的特征抽取算法单方面并不能保证CBVIR系统完全成功。
但是,一个系统中如果关于图像的低层内容的知识不足以建立图像之间视觉相似性的概念,那么该系统也不会表现出很好的性能。
(However,nosystemwillexhibitagoodperformanceifitsknowledgeabouttheimages’low-levelcontentsislessthantheminimumrequiredtoestablishthenotionofvisualsimilaritybetweenimages.)大多数系统会抽取颜色和纹理信息进行编码,有的系统也会抽取频率相关的信息,例如使用数学变换。
特殊的应用往往需要专门的特征和算法,例如人脸识别。
抽取出的特征信息往往被组织成特征向量的形式,图像之间的相似度由距离度量标准来表示,距离越大,相似度越小。
•系统如何知道使用可哪些特征以及如何给某个特殊的查询优先权?
如果系统工作在一个无约束的图像库下,那么找出哪些特征应当被考虑到以及根据这些特征的重要程度来为每个特征分配特定的权重将不是一件很简单的事。
在某一个查询中很重要的到了下一个查询中可能会毫不相关。
处理这个问题由两种方法:
(a)在提交查询前让用户明确指出哪些特征是重要的;(b)基于用户交互和相关反馈,使用机器学习技术来推断每个特征的重要性。
QBIC使用了前一种方法,MARS则使用了后一种方法。
•选择什么样的相似度量方法?
最广泛采用的相似性模型是度量,假定人的相似性感知可以被近似的通过度量特征向量之间的距离(代表性的使用欧几里德距离)估计出。
非欧几里德的度量方法尚未进行深入研究(Rui,Huang,Chang,1999),更好的相似模型正在研究中。
•降维和索引过程应该使用什么技术?
Karhunen-Loeve变换(KLT)是对特征向量进行降维处理的较为完善的技术,同时研究人员正在寻找一种最佳的多维索引技术,近些年一种新的基于树的方法被提出来。
在Rui、Huang和Chang(Rui,,Huang,Chang,1999)所作的调查中包含了许多特殊的算法。
•系统应该支持什么样的查询?
决定选用什么样的查询方式应该考虑到用户的需要以及实现每种模式的复杂度的折衷。
例如支持基于文本的搜索,需要花费额外的精力对每幅进入数据库的图像进行注释,同时支持基于实例的查询(QBE)操作需要更复杂的图像相似度度量。
一些研究者们提出根据类别的导航与基于内容的检索之间可以着到一个有意义的平衡。
当用户提交了一个视觉信息查询时,图像的子集已经被限定到以个特定的类别中去,这样作可以提高速度(需要考虑的图像变少了)而且还可以加入关于查询的语义信息(层次树中的类别和它的父类会告知用户关注的主题)。
•如何评价结果的质量?
Benchmarking视觉信息检索解决方案是anopenproblem,研究人员仍然在争论如何为这个目的找出一套图像、一个查询集以及评价标准。
用标准化的方法比较两种解决方案之间的差别仍然是不可行的,每一个系统都具有它本身的数量上的和质量上的度量标准。
•.图像文件应该存放到哪里?
图像文件实际存放位置的不同(在本地硬盘上还是在互联网上)会给系统的设计带来很大的差异。
当图像文件不是存放在本地时,设计者应该考虑到众多的问题,我们指出其中的一些如下:
a)需要在本地存储远程数据库中图像的索引图或者镜像副本;
b)实际图象可能会变得不可用(临时地或永久地);
c)网络拥塞可能会带来性能的下降;
d)根据图像库的变动使用不同的策略更新索引。
•用户怎样提出相关反馈以及与之对应系统应该完成什么工作?
CBVIR系统要支持用户相关反馈存在着许多重要问题。
第一个就是于用户的接口问题以及系统要求用户如何与之交互,如何使用例子来表达他们对图形的看法,使用哪些特征来度量相似度以及部分的返回结果。
一些系统只需要最低限度的用户操作(例如用户评价结果时好的、坏的或者都不对),其它的系统需要用户对结果的质量给出一个具体的数值。
第二个问题关于复杂的数学计算,主要是由下面的情况所带来:
用户相关反馈信息以及根据它来调整查询,计算每个特征的重要性,计算每幅图像是目标图像的概率,等等。
•如果需要的话,系统应该具有哪些学习能力?
CBVIR系统有许多的理由使用无人管理的学习算法:
a)学习特征向量如何于图像的自然组相关联,如何标注这些组;
b)找出要将图像归为特定的类中时有用的特征;
c)根据一系列的先验概率以及计算对每幅图像是所需要的图像的概率进行修正,同时还要考虑到相关反馈的信息。
在CBVIR系统中贝叶斯学习和聚类技术是最常用的学习技术之一。
•系统中还要包括哪些支持工具?
一系列的支持工具的引入可以增强CBVIR系统的性能。
一组基础的图像处理函数即使这种工具的一个例子,这些函数允许基于实例查询系统的用户在提交查询前对样本图象进行简单的编辑(如:
裁剪等等)。
CBVIR系统实例
近年来,不管在商业上还是在研究领域,都出现了大量的CBVIR系统。
下面会对现存的一些CBVIR系统作一个简要的介绍,具体细节可以从文中所给出的互联网站点和文献目录中获取。
QBIC
QBIC(QueryByImageContent基于图像内容查询)系统是由国际商用机器公司(IBM)研制成功的。
该系统的设计框架和采用的技术对后来的图像系统产生了深刻的影响。
QBIC系统基于例子图像的查询方式,也支持通过由用户构造的草图、轮廓和选定的色彩和纹理样式的查找方式。
在QBIC的最新版系统中,基于文本的关键字查找方式与基于内容的相似性查找方式相结合,共同完成查找功能。
QBIC演示程序可以在如下的网址中找到:
。
Photobook
Photobook是美国麻省理工大学的多媒体实验室所开发的用于图像查询和浏览的交互式工具。
它由三个子系统组成,分别负责提取形状、纹理、人脸特征。
这样一来,用户可以分别在这三个子系统中根据相应的特征来进行查找。
另外的关于Photobook的资料可以在下面的网址中找到:
http:
//www-white.media.mit.edu/vismod/demos/photobook/index.html。
FourEyes
FourEyes相当于是Photobook的一个改良版本,它包括了相关反馈机制。
通过给出一组正的和负的例子,系统决定使用哪个模型或者几个模型的组合并学习哪个组合能最好的解决特殊类别的问题。
当系统遇到一个与它以前所解决的问题类似的新问题时,FourEyes能在比第一次更快的时间内解决问题。
更多的关于系统的细节可以从如下的网址获取:
http:
//www-white.media.mit.edu/vismod/demos/photobook/foureyes/.
Netra
Netra系统是在UCSB大学的Alexandria数字化图书馆(AlexandriaDigitalLibrary缩写为ADL)项目中。
它从分割后的图像区域中提取颜色、形状、纹理和空间位置信息,并依靠这些信息从数据库中查找相似的区域。
在线演示网址为:
http:
//vivaldi.ece.ucsb.edu/Netra/。
Netra的新版本——Netra2着重于组最后处理的颜色图像区域和本地的颜色特征,演示网址为:
http:
//maya.ece.ucsb.ed
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 内容 视觉 信息 检索 译文