信息检索与分析讲稿1Word文档格式.docx
- 文档编号:696495
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:29
- 大小:138.04KB
信息检索与分析讲稿1Word文档格式.docx
《信息检索与分析讲稿1Word文档格式.docx》由会员分享,可在线阅读,更多相关《信息检索与分析讲稿1Word文档格式.docx(29页珍藏版)》请在冰点文库上搜索。
9、华东理工大学精品课程《文献检索》
经典网站:
1、中国国家图书馆
2、中国科学院国家科学图书馆
3、北京大学图书馆网站
4、上海图书馆
5、浙江大学图书馆
6、中文维基百科http:
//zh.wikipedia.org/
7、温州大学图书馆网站:
参考文献:
1.叶继元. 信息检索导论.北京:
电子工业出版社,2003年
2.黄如花. 网络信息的检索与利用.武昌:
武汉大学出版社,2002年
3.叶鹰. 信息检索:
理论与方法.北京:
高等教育出版社,2004年
4.焦玉英等. 信息检索.武汉:
5.马费成. 信息管理学基础.武汉:
6.沈固朝. 信息检索(多媒体)教程.北京:
高等教育出版社,2002年
7.王知津. 科技信息检索.天津:
南开大学出版社,2002年
8.信息检索与利用,鄢春根主编,人民邮电出版社,2008年
9.信息检索与利用,洪全 主编,清华大学出版社,出版时间:
2007年
10.信息资源检索与利用(第2版),林豪慧,孙丽芳主编,电子工业出版社,2007年
导言信息检索与分析解析
一、对本课程的理解和解释:
《信息检索与分析》
1、信息检索课程的出现
信息、能源和材料,并称为现代社会的三大支柱。
20世纪以来,人类创生的信息量高速增长,浩如烟海。
信息检索,就是从浩如烟海的信息海洋中查找出所需信息的过程。
为实现这个过程是需要适当理论和方法的,信息检索课应运而生。
2、信息检索(InformationRetrieval)
作为一门学科,信息检索历史可追溯到19世纪下半叶。
但在20世纪中期以前,信息存储和传播主要以纸质为载体,信息检索活动也是围绕和文献的获取和控制展开的,因此,信息检索研究关注的是如何检索利用文献中记载的信息,文献检索一度成为信息检索的同义词。
现代意义的信息检索作为一个独立的领域,是1946年计算机出现后在国际上逐步得以确立的。
3、信息检索教育
教育部(当时是国家教委)1984年发出的“高教一字004号”文件——要求在高等教育院校开设“文献检索与利用”课程。
20余年来,文献检索教育尤其是手工检索教育方面已取得了很大的成绩。
然而随着计算机、多媒体等信息技术的发展,以多种载体多种记录方式的非纸信息急剧的增加,靠“手翻、眼看、大脑判断”的手工检索模式已经难以适应信息社会的发展要求,计算机信息检索应运而生;
以Internet为代表的全球性计算机网络迅速发展和普及,更进一步的推动了信息检索的发展,使得网络化信息检索逐渐成为信息检索的主流。
二、和信息检索相关的几个术语的解释和理解
1、信息
定义——物质存在的一种方式,一般指数据、消息中所包含的意义。
可以使消息中所描述的事件的不定性减少。
(*注:
中国《情报与文献工作词汇基本术语》(GB48944-85)有关信息的定义。
据不完全统计,信息的定义有100多种,至今仍无法统一,为各界普遍认同。
这种情况主要是由于信息本身的因素,以及认识层次上的差别造成的。
不同的学科,从不同的角度对信息这个概念有不同的解释。
经济学、心理学、新闻学和哲学的定义不同于图书情报学对信息的定义。
控制论专家N•维纳(N.NorbertWiener)从信息自身具有的内容属性给信息下定义被许多研究所引用。
信息论的创始人申农(C.E.Shannon)1948年在《通信的数学原理》一文中将信息定义为“两次不定性之差”。
国内在这方面也有许多争论。
信息的定义之所以呈现多样化,主要原因有三:
第一,信息本身的复杂性,它是一个多元化,多层次、多功能的综合物;
第二,信息科学是一门新兴学科,它的许多分支学科仍在随着社会、经济和科学技术的发展而发展,其内涵和外延不很确切;
第三,人们出于不同的研究和使用目的,从不同的角度或层次出发,对信息概念就会作出不同的解释。
因此,许多学者建议将信息的要领分为不同的层次来解释。
在诸多层次中,最重要的是两个层次:
一是没有任何约束条件的本体论层次,即信息是一种客观存在的现象,是事物的运动状态及其变化方式的表征,不受主体意志的影响。
不停运动着的事物不断产生本体论意义上的信息;
二是受主体约束的认识论层次,即信息就是主体所感知或所表述的事物运动状态及其变化方式,是反映出来的客观事物的属性。
例子:
信息的要领是十分广泛的,世间万物的运动,人间万象的更迭,都离不开信息的作用。
据说上古时期,诺亚的方舟在洪水中飘荡许久,当放出的飞鸽衔回一束橄榄,意味着带回了洪水已退的信息。
那么李太白的诗“日照香炉生紫烟,遥看瀑布挂前川,飞直下三千尺,疑是银河落花流水九天。
”给我们带来的显然就是庐山瀑布的信息;
苏东坡的词“大江东去,浪淘尽,千古风流人物。
……”给我们传递的是赤壁怀古的信息。
从自然界角度看,表征物质的属性:
地球昼夜的变化是一种信息,它反映出地球绕太阳自转的运动特性和状态;
山的高度是一种信息,它反映出山的空间特性;
树干的年轮是一种住处它反映了树木成长的时间特性——树龄;
闪电是一种信息,它反映了云层中所含能量的不知所云性;
花的香味也是一种信息,它反映了花分子结构的化学特性等等。
2、知识
是人类的主观世界对客观世界概括和反映,是大量有组织的信息,是关于事实和思想的有组织的陈述。
提供某种经过思考的判断和某种实验的结果。
(1)知识的分类
根据国际经济合作与发展组织(OCED)出版的《以知识为基础的经济》报告:
第一类“知事(Know-what)”,指关于事实方面的知识,也可理解为Know-when、Know-where;
即在什么样的时间(Know-when)、什么样的地点或条件下(Know-where)能解决什么样的问题
第二类“知因(Know-why)”,指自然原理和规律方面的科学理论,知识的生产是在专门研究机构如实验室和大学完成的;
第三类“知道怎样做的知识(Know-how)”,指做某些事情的技艺和能力,被称为技术情报和商业秘密,其典型是企业开发和保存于其内部的技术诀窍或专有技术;
第四类“谁以及是怎样创造知识的(Know-who)”侧重创造思想、方法、手段、过程以及特点等的了解。
还有一种分类:
把知识分为显性知识(ExplicitKnowledge)和隐性知识(TacitKnowledge)。
所谓显性知识是指经过人的整理和组织后,可以编码化和度量,并以文字、公式、计算机程序等形式表现出来,还可以通过正式的、系统化的方式(如出版物、计算机网络等)加以传播,便于其他人掌握的知识。
典型的显性知识主要是指以专利、科学发明和特殊技术等形式存在的知识,它是有载体的、可以表达的,OECD的分类中“知事(Know-what)”和“知因(Know-why)”;
隐性知识是与人结合在一起的经验性知识,很难编码化,并将其文字化或者公式化,它们本质上以人为载体,因此难以通过常规的方法收集到它,也难以通过常规的信息工具进行传播。
隐性知识往往是个人或组织经过长期积累而拥有的知识,通常不易用语言表达,也不可能传播给别人或传播起来非常困难。
例如:
技术高超的厨师或艺术家可能达到世界水平,却很难将自己的技术或技巧表达出来从而将其传播给别人或与别人共享。
隐性知识对应的是OECD中的关于Know-how和Know-who的知识,其特点是不易被认识到、不易衡量其价值、不易被其他人所理解和掌握。
(2)知识的来源
第一类是人脑之中,以主观意识存在,只有当以一定的形式,通过一定的载体表达时,才能为其他人所感知;
第二类是存在于实物之中,如古文物、样品、样机、物品等。
人们可以通过研究实物而获得某种知识;
第三类是用文字、图形、代码、符号、声频、视频等技术手段记录在一定的载体之上,例如刻在甲骨上、印在纸张上等,这就是文献。
3、文献
是记录有知识的一切载体。
(*注目前有关文献的较权威的定义主要有两个,一是《文献情报术语国际标准(草案)》(ISO/DIS5127)的定义,“为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录到唱片上,或存贮在磁盘上。
这种附着在各种载体上的记录统称为文献。
”另一个是中国的国家标准。
是各种媒介和形式的信息集合,包括文字、声像印刷品、电子信息、数据库等。
文献的构成要素
(1)文献信息是文献的内容
(2)符号系统是信息的携带者
文字已不再是表达思想的唯一手段,图形、声频、视频等同样成为表达思想、传递感情的重要手段。
总的说来,文献中的符号系统指图画、文字、公式、图表、编码、声像和电磁信息等。
(3)载体是符号赖以依附的“寄主”
随着生产力的发展,存贮和表达人们思想的物质载体不同了,从金石、竹简、羊皮、丝帛、纸张发展到用感光介质和磁性介质。
从非人工材质的泥版、岩石、石板、兽骨、木板、竹片、兽皮、树叶、桦树皮等到各种人工材质,如无机材质(陶、砖瓦、瓷,玻璃等)、金属材质(青铜、铁、铝、金银等)、高分子材质(帛、纸、胶片、醋酸纤维等)、复合材质(磁带、光盘等)。
纸质文献已经多得不便于快速传输信息、高效查阅和高密度存贮了,于是其他介质的文献应运而生,这些文献主要包括:
纸质文献具有价格低廉、质地柔软、易于书写、携带和收藏等其它一些载体所无法比拟的性能而成为文献家族的主干。
(4)记录方式是将文献的符号进入载体的方法和过程
按记录方法分可有手工记录、机械记录、光记录、电记录、声记录和磁记录。
其中最常见的是印刷。
随着科技的发展,文字记录可以转变为数据记录,并用电子方法存贮到磁介质上去。
此外,还有光学字符识别(OpticalCharacterRecognition,简称OCR)技术就代表了这种崭新的技术,它通过光学方法对字符、标记表示的书面数据进行自动识别,转换成机器可以处理的信息,这样就实现了纸质文献信息向电子信息的转换,而且可以通过不同接口装置向不同设备输入数据,这些设备进而与通信网络相连,实现远距离数据传送。
4、信息、知识与文献的关系
(1)区别
信息,有形的、独立于行动和决策、经过处理改变形态、物质产品、与环境无关、可以复制;
知识,无形的、与行动和决策相关、经过处理改变思维、精神产品、环境改变涵义、经过学习才能转让、无法复制。
”
(2)联系
知识是有组织的大量的信息,获得知识有赖于获得信息;
信息是知识得以形成和传播的中介,而不是知识本身,知识是经过精心研究、领会后的有用信息,是人类对信息加工处理后的产物;
并非所有信息都可成为知识,在信息时代,源于众多复杂客体的大量信息,只有借助于现代化的信息手段,并通过掌握现代信息科学技术的认知主体,才能真正转化为知识。
例如,人们对于卫星照片,气象云团的识读能力是不同的,所获得的信息的量和质将会有差别。
信息、知识与文献的关系关系示意图
5、信息素质
信息素质(informationliteracy)是一个综合性的概念,包含信息意识,信息技能,信息道德。
信息社会人们必须具备的素质,也是当今素质教育一个重要方面。
(1)信息意识
——是人们利用信息系统获取所需信息的内在动因,具体表现为对信息的敏感性、选择能力和消化吸收能力。
同样重要的信息,有的人善于抓住,有的人却漠然视之。
这是由于各人的信息意识强弱不同。
信息技能的掌握在很大程度上取决于信息意识的提高。
信息意识的强烈与否对能否挖掘出有价值的信息、对文献获取能力的提高起着关键的作用。
日本人在这方面做得非常好,例如:
大庆油田事件。
(2)信息能力(信息技能)
——寻求有关新知识的能力。
具体表现为以下6种技能:
明确任务(TaskDefinition):
了解问题的症结,确定所需信息和目的,分清任务的轻重缓急;
信息查询策略(InformationSeekingStrategies):
了解各种信息源,能够作出评价并确定优先查找的次序;
查找和检索(LocationandAccess):
确定信息藏址,从信息源中找出信息;
信息利用(UseofInformation):
能够读懂(或听懂、理解)查出的信息,了解信息在满足需求中的特定价值;
信息综合(Synthesis):
能够组织信息,提供信息产品(论文、报告等);
信息评价(Evaluation):
评价查找结果和解决问题的过程(效率)。
(3)信息道德
信息道德——指人们在信息活动中应遵循的道德规范。
信息犯罪——运用信息技术故意实施的严重危害社会并应负刑事责任的行为。
三、信息检索的概念
信息检索(InformationRetrieval)是在1949年国际数学会议上由GalvinW.Mooers在《把信息检索看作是时间性的通讯》一文中首次提出的。
信息检索的概念有狭义和广义之分:
(1)狭义的检索是指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获取特定的相关信息的过程。
这里的信息集合,不是通常所指的信息本身,而是关于文献的信息或文献的线索。
(2)广义的检索包括信息的存储和检索两个过程(StorageandRetrieval)。
信息存储是将大量无序的信息集中起来,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的数据库或检索系统,供人们检索和利用。
而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。
四、《信息检索与分析》意义和作用
现代科技的发展,每时每刻都有新的发明创造,信息也出现新陈代谢加快、老化加剧、使用寿命缩短的趋势。
而现代信息技术的发展,特别是计算机技术、电子技术、远程通讯技术、光盘技术、网络技术发展,使信息的载体从传统的纸质印刷型媒介向光学、磁性媒介发展,信息的传递速度越来越快,传播面也越来越广,信息检索手段越来越先进。
面对爆炸式增长的信息量,信息检索是进行科学研究必不可少的手段之一。
如何从这浩如烟海的信息中找出所需信息,是信息检索的重任。
充分利用信息资源,避免重复劳动:
积累、继承和借鉴前人的研究成果是科技发展的重要前提,在研究工作中,任何一个项目从选题、实验研究或设计,到成果鉴定,每一步都离不开信息。
只有充分掌握了有关信息,才能避免重复,少走弯路,保证研究工作在尽可能高的层次上起步,并缩短研究周期。
更新自身知识积累,适应社会发展需要:
掌握信息检索的方法与技能,是形成合理知识和更新知识的重要手段,是做到无师自通、不断进取的主要途径。
信息检索基础理论
一、信息检索及其发展
1、信息检索
信息检索(InformationRetrieval)是在1949年国际数学会议上由GalvinW.Mooers首次在《把信息检索看作是时间性的通讯》论文中提出的。
一句话概括信息检索的基本原理:
信息检索是对信息集合与需求集合的匹配和选择。
信息检索基本原理示意图
需求集合:
人们为了满足某种需求时,感到需要补充知识,因此产生了对信息的需求。
信息集合:
是有关某一领域的文献或数据的集合体,它是一种公共知识结构,可能弥补用户的知识结构缺陷。
匹配和选择:
是一种机制,负责把需求集合和信息集合进行比较,然后根据一定的标准选出需求的信息。
2、信息检索的发展阶段
(1)手工检索(1876—1954)
(2)脱机批处理检索(1954-1965)
(3)联机检索(1965-1991)
(4)网络化联机检索(1991—今)
3、信息检索发展的趋势
(1)深度:
传统西西检索向全文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能力,如探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等;
(2)广度:
信息资源的网络化和分布化,面向Internet中浩瀚无垠的资源,在广度上提高管理和组织信息的能力。
4、信息检索模型
信息检索模型:
运用数学德育眼和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公事,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。
(1)布尔逻辑检索模型(BooleanModel)
(2)向量空间检索模型(VectorSpaceModel)
(3)概率检索模型(ProbabilisticModel)
(4)模糊集合检索模型(Fuzzy-setModel)
(5)扩展布尔逻辑检索模型(ExtendedBooleanModel)
(6)相关反馈模型(RelevanceFeedbackModel)
二、信息检索系统
计算机信息检索系统主要指它包括的功能模块或子系统及其相互关系。
一个完整的信息检索系统,通常由以下饿功能模块组成:
信息选择子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。
1、信息检索系统的组成:
一个完整的信息检索系统,通常由以下几个功能模块组成:
信息源选择与采集子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。
(参阅后图)
2、信息选择子系统:
本功能模块的任务是:
根据系统的目标和服务对象的需要,确定数据收集范围,并广泛地、定期地采集各种信息源,为系统提供充足而适用的数据。
3、标引子系统:
标引,就是根据系统的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识(如分类号、主题词、关键词等),作为存储与检索的依据。
标引作业通常与文献编目和文摘工作一起进行,然后把标引结果和其他描述事项(如著者、著者单位、文献出处等)填入工作单,由录入员输入到计算机中。
4、建库子系统:
本模块的功能是建立和维护可直接用于检索的数据库,包括系统所用的各索引文档。
其工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。
5、词表管理子系统:
词表管理子系统管理维护系统中已有的词表,使它与标引、建库等子系统相连接,支持用户查询操作,并从提问、对话或其它文本中采集新的词汇信息,以及输出各种形式的词汇数据或词表产品。
6、用户接口子系统:
它的全称是“系统-用户接口”,简称用户接口,是面向系统用户的人-机接口程序。
它承担用户与系统之间的交流功能,是信息系统中不可缺少的模块。
7、提问处理子系统:
提问处理子系统专门负责处理用户输入的提问式,将提问式中的检索元和算符区分,并转换成系统内部的可接受的命令方式。
在对提问进行转换后,与数据库中存储的数据进行比较运算,然后把运算结果输出给用户。
信息检索系统示意图
三、信息检索语言
信息检语言是根据信息检索需要而创制的人工语言,又称信息语言、检索语言、信息存储与检索语言、文献语言、索引语言、标引语言、标引符号、标识系统等。
目前世界上有两千种左右的信息检索语言。
如:
《中国图书馆分类法》、《汉语主题词表》都属于信息检索语言。
可分为分类语言和主题语言。
信息检索包括信息存储和检索两个方面,信息检索语言就是沟通这两个过程中标引人员和检索人员的工具,在信息检索过程中起到了极为重要的作用。
四、信息检索的基本步骤
1、分析检索课题,明确检索目的、要求和检索的范围,这是制定检索策略的基础和前提。
任何一个检索都是根据已知去查找未知,通过分析检索课题,明确的已知线索越多,查获所需信息的可能性就越大。
明确检索目的即要弄清楚检索是为什么而进行的,通常检索目的可分为3种:
1.科研攻关型:
是要解决研究或生产中的一些技术难题,如某一理论、方法、设备、过程等的具体问题,这类检索要求查准率高,只要找到合适的文献即可。
2.课题普查型:
是要针对某一课题收集系统详尽的资料,这类检索要求查全率高,往往要检索若干年的文献,一般采用回溯检索的方式。
3.研究探索型:
是要密切跟踪、了解国内外某一方面的最新成果,掌握最新科研动态,这类检索要求信息的新颖、及时性强,多采用定题检索的方式。
明确检索要求与范围,主要应搞清楚检索课题所涉及的学科、专业范围,检索的主题概念是什么,能用哪些名词术语表达?
所需要的信息类型是文献、还是具体的数据、事实?
对检出文献的类型、语种、出版时间、地域范围等有什么具体要求?
是否还有其它的已知线索?
如文献名称、有关人名、机构名称、文献号码(专利号、标准号、报告号)等,将已知线索一一分析出来。
2、制定检索策略
检索策略(InformationRetrievalStrategy)是指为实现检索目标而制定的全盘计划或方案,是对整个检索过程的谋划与指导。
具体包括:
(1).确定查找范围:
根据第一步对检索的时间、地域、语种以及文献类型等的分析,确定一个合理的检索范围。
(2).选择检索手段:
一般来说利用光盘检索系统,结合检索相应的网络数据库能满足多数检索要求;
没有机检条件时则选用手工检索。
如果光盘检索能满足要求,则不必选用其它检索手段。
(3).选择检索系统:
选择合适的检索系统主要是选择检索工具/数据库,要根据检索课题的内容范围和要求来决定。
要了解检索工具/数据库的学科专业范围及各种性能参数,其内容主要包括:
1)检索工具/数据库的类型是否满足检索需要。
2)检索工具/数据库的学科专业范围是否与检索课题的学科专业相吻合。
3)检索工具/数据库收录的文献类型、文献存贮年限、更新周期是否符合检索需求。
4)检索工具/数据库描述文献的质量。
包括对原文的表达程度、标引深
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 分析 讲稿