信息检索与利用概论研究生文献检索基本概念.docx
- 文档编号:16836516
- 上传时间:2023-07-17
- 格式:DOCX
- 页数:20
- 大小:31.42KB
信息检索与利用概论研究生文献检索基本概念.docx
《信息检索与利用概论研究生文献检索基本概念.docx》由会员分享,可在线阅读,更多相关《信息检索与利用概论研究生文献检索基本概念.docx(20页珍藏版)》请在冰点文库上搜索。
信息检索与利用概论研究生文献检索基本概念
信息检索基础
学习目标
1.掌握信息、情报、文献、知识的基本概念
2.了解文献的类型、特点
3.知道数据库的类型与结构
4.掌握信息检索的途径、步骤
5.理解检索式的编写与检索策略的调整
6.熟悉信息网络技术与网络信息检索
第一章 信息检索与利用概论
第一节 信息学
信息学是研究信息的获取,处理,传递和利用规律性的一门学科。
(一)信息(Information)
美国-克劳德·申农(C.Shannon)。
1948年,《通信的数学理论》—“信息”解释为“两次不定性之差”,即通信的意义在于消除某种不定性。
该论文成为信息论诞生的标志。
定义1:
信息是物质运动规律总和,即不是物质,也不是能量。
定义2:
信息论的创始人申农(Shannon)认为:
“信息是能用来消除不确定性的东西”或“信息是确定性的增加”。
定义3:
信息是客观事物状态和运动特征的一种普遍形式。
钟义信1988年《信息科学原理》信息定义为:
事物的运动状态和状态变化的方式。
被国内多数教材接受采用。
(二)信息的特征
1.普遍性
2.传递性
3.依存性:
信息必须依附于一定的物质形式上(如声波、电磁波、纸张、化学材料、磁性材料等),不可能脱离物质而单独存在。
4.相对性:
客观上信息是无限的,但对于信息用户来说,人们实际获得的信息问题有限的。
同一信息对不同认知水平的用户所产生的作用和有效性也不同。
5.可加工性:
信息可以加工处理,可以压缩、扩充和叠加,也可以变换形态。
6.时效性
7.可共享性:
信息与物质,能量显著不同的是。
信息在传递过程中并不是“此消彼长”,同一信息可以在同一时间被多个主体共有,而且还能够无限的复制、传递,它可以共享。
(三)信息的作用
1.信息是人类认识客观世界及其发展规律的基础。
2.信息的基本功能,主要表现为信息的认识功能。
3.信息是科学研究的必要备件。
4.信息是管理和决策的主要参考依据。
5.信息是社会发展的资源。
(四)知识、情报和文献
1、知识Knowledge
知识是人类认识的成果,它是在实践的基础上产生又经过实践检验的对客观实际的反应。
知识具备的特征:
被证实的justified,真的true,被相信的believed
(1)知识认识观、知识信息观
知识认识观:
知识就是对事物的属性与联系的认识,表现为对事物的知觉、表象、概念、法则等心理形式。
即是说,知识是对事物本质及联系的认识。
据此,知识分为:
直接知识和间接知识。
----仅属于“有形知识范畴”。
知识信息观(当代知识观):
知识是人类通过信息对自然界、生物界、人类社会运动规律的认识和概括,是人的大脑通过思维重新集成整合的系统化信息,是信息中最有价值的部分。
即使说,信息是产生知识的原材料,知识是信息加工的抽象化产物。
-----揭示了知识的信息本质(明确信息与意会信息),适应了信息化时代社会经济与科学技术进步的趋势与要求。
有形知识(显性知识,Explicitknowledge):
个人具有有意识的提取线索,能直接用语言表达,便于与他人共享,以命题和命题网为其表征的明确信息。
无形知识(隐性知识,Tacitknowledge):
个人不具有有意思的提取线索,不能用语言系统表达,不便与他人共享,以活动中的发生式系统为其表征的意会信息。
获取无形信息的办法:
在实践的特定情境中,注意观察、体验他人的行为方式,从他人的观点出发来看待事物,进行领悟式情境学习。
(2)知识的分类——(经济合作与发展组织OECD《以知识为基础的经济》)
①关于事实方面的知识,即know-what,类似于数据。
②关于客观原理和自然规律方面的知识,即know-why,类似于科学等。
③关于某些事情的技艺、能力,即know-how,类似于智能、技能。
④涉及谁知道如何做某些事情的信息,及know–who,类似于信息。
2、情报Intelligence,Information:
是指传递着的在特定效用的知识。
三个基本属性:
1知识性:
根据知识的定义和特性,知识去除了糟粕的信息,并且具有可实践性。
2传递性:
没有被激活的知识只能发挥知识的价值,而不能体现情报的价值。
3效用性:
情报最大的特点是可以发挥比其作为知识更为巨大的作用。
3、文献Literature,Document:
记录有知识的一切载体。
文献本身并不是知识,其包含的内容才是知识。
文献要素:
知识内容、信息符号、载体材料,记录方式。
信息符号、载体材料和记录方式都影响知识内容的获取和利用。
概念间的关系:
属种关系。
信息是属概念,知识和情报是信息之下具有交叉的种概念。
信息、知识、情报、文献四者的关系
(五)信息源
信息源是个人为满足其信息需要而获得信息的来源。
信息类型
保存性:
正式记录的信息源、非正式记录的信息源
时间:
先导(天气预报)、实时(现场直播)、滞后(报纸)
表现形式:
文字、图像、数值、语音
内容:
社会科学、自然科学、科技信息源
存储载体:
刻写型、印刷型、缩微型、声像型、机读型。
★★按产生次序和加工程度划分(重要):
零次、一次、二次、三次信息
理解各层次信息的含义,根据各层次信息的特点能够判断不同出版类型的信息、文献分别属于什么层次的信息和文献。
1.零次信息;从信息理论上来讲,零次信息是信息的一个部分,是一切信息产生的源信息。
即客观存在于社会生活中,通过人的视觉,触觉,听觉等形成的言语,神情,动作,气氛等表象形式。
其主体是口头信息及行为表现,包括广义的网络语言。
在此基础上延伸到记录在非正规物理载体上的未经任何加工处理的源信息叫做零次信息,
Eg书信,论文手稿,笔记,实验记录,会议记录等。
2.一次信息:
又称原始信息,它是人类社会实践活动中直接产生或得到的各种数据,概念,知识,经验及其总结。
人们直接以自己的生产,科研,社会活动等实践经验为依据生产出来的文献,这些文献是脑力劳动的正式产品,是科研成果的一种主要表达形式,代表新知识,组成了可供交流的系统性信息。
一次信息在整个文献中是数量最大,种类最多,所包括的新鲜内容最多,使用最广,影响最大的文献,
Eg期刊论文,专利文献,科技报告,会议录,学位论文等。
一次信息的特点:
创造性;原始性;多样性。
3.二次信息:
指根据实际需要,按照一定的科学方法,将特定范围内的分散的一次信息进行加工整理使之简化和有序化而形成的文献信息。
它能较为全面系统的反映某学科某专业文献想线索,是检索一次信息的工具。
Eg书目,题录,索引和文摘等。
二次信息的特点:
集中性;工具性;系统性
4.三次信息:
指通过二次信息提供的线索,选用一次信息的内容,进行分析,综合,改编,重组和综合概况生成的信息。
Eg专题评述,动态综述,系统评价,进展报告,学科年度总结,年鉴,指南,百科全书等。
三次信息的特点:
综合性;针对性;科学性
按出版类型划分:
1.图书:
有专著,教科书,论文集,会议汇编等。
2.期刊:
Journal,又称杂志,是有固定刊名,以期,卷,号或年,月为序,定期或不定期连续出版的印刷读物。
特点为出版周期短,报道速度快,数量大,内容多,发行面广。
3.科技报告:
是关于某项科学研究和革新成果的报告或研究过程重点阶段进展状况的实际记录。
内容高度专门化,有一定的保密性。
以单行本的形式出版。
4.专利文献
5.会议文献
6.政府出版物
7.学位论文:
特点为论文的水平和质量差别较大,论题比较专一,阐述系统,具体,有一定的独创性观点,且经过一点的审查,故有一点的参考价值。
8.标准文献
9.产品样本
10.科技档案
二、信息需要与行为
(一)信息需要
指人们在从事各项实践活动的过程中,为解决所遇到的问题而产生的对信息的需求。
是信息行为发生的基础。
信息需要的特征:
1.广泛性:
人类的实践活动的广泛性也决定了信息需要是普遍存在着的心理现象。
2.社会性:
信息需要的产生和发展是由社会环境和社会活动决定的。
所以信息需求不仅仅是个体的特性,而且主要是一种社会需要。
3.发展性:
社会实践活动的发展,社会现象日趋复杂,刺激了信息需要的日益增长。
4.多样性:
信息用户的知识结构、专业、地位、职责等的多样性决定了信息需要千差万别,即使对于同一信息用户,在不同的时间、地点和环境条件下,由于具体任务的变化,其信息需要也会有很大的差别。
★信息需要的层次(重要):
1.未知的信息需要:
没有或没有意识到自己处于信息需要的状态,属于客观信息需要。
2.潜在的信息需要:
人们认识到而未表达出来的信息需要
3.现实的信息需要:
当人们意识到信息需要,而且明确表达出来的
信息需要的内容:
对信息本身的需要是用户信息需要的最终目标。
人们在从事各种社会活动的过程中,为了解决所遇到的问题,就需要了解情况,增长知识,及时做出有效的决策。
由于信息本身的诸多属性,用户对信息的需求也涉及到许多方面。
各类信息用户的需要特点:
各类信息用户的信息需要在内容上、质量和数量上、类型上根据解决问题的属性均有所区别。
(二)信息行为:
信息行为是人们满足自己信息需要的社会活动的过程。
用户的信息行为主要有信息检索行为、信息的选择行为和信息利用行为。
(1)信息检索行为
信息检索行为,指的是用户自己查找、采集和寻求所需要信息的活动
(2)信息选择行为
信息选择行为指的是信息采集者从某一信息群中把符合自己需要的一部分信息挑选出来的过程。
信息选择的核心标准就是相关性和适用性。
(3)信息利用行为
信息利用是用户寻求信息的根本目的。
信息利用行为指的是用户利用信息解决其所面临问题的过程。
(三)信息检索
信息检索是指为达到某一特定目的,将信息源与用户需求连接起来,查寻、鉴别、选择并确定相关信息的过程。
广义的信息检索包括信息的存储和信息的检索,所以又称为“信息存储与检索”。
信息的存储主要包括对在一定专业范围内的信息选择基础上进行信息特征描述、加工并使其有序化。
在现代信息检索技术条件下,信息检索从本质上讲,就是指人们希望从一切信息集合中高效、准确地查询到自己感兴趣的有用信息,而不管它以何种形式出现,或借助于什么样的媒体。
信息检索至少包括三层含义:
(1)是按某一主题或某一特征从信息源或数据中查找到相关的信息及其获取线索,如OPAC检索
(2)是为解决某一问题从信息源或数据库中获取隐含于文献中的事实、数据、图像或理论等未知的知识,如全文检索
(3)是将查寻的信息及其知识进行分析加工,提供给用户使用,如科技查新
信息检索经历了三个发展时期:
手工检索时期,机械检索时期,计算机检索时期。
信息检索的意义
1)信息控制的手段
2)获取知识的门径,学习的助手
3)科学研究的工具和指南
4)决策与管理的支持与参考
第二节信息素养
1989年,美国图书馆协会对信息素养定义为:
具有信息素养的人能够知道什么时候需要信息,能够有效地获取、评价和利用所需要的信息。
标准一:
有信息素养的学生确定所需信息的性质和范围
标准二:
有信息素养的学生有效地获取所需信息
标准三:
有信息素养的学生批判性地评价采集资料的信息及信息源,决定是否需要调整最初的信息需求和/或寻求更多信息源,并创建一个新的研究过程。
标准四:
作为个体或团队成员,具有信息素养的学生了解信息及信息技术利用相关的经济,道德,法律和社会问题,有效地,合乎伦理和法律地实现特定目的。
标准五:
有信息素养的学生能认识到信息素养是一个不断发展的过程,是终身学习的一个重要组成部分,认识到需要时刻对自己研究领域最新发展的关注。
2003.9-国际信息素养专家会议-捷克-《迎接有信息素养的社会》的布拉格宣言:
信息素养包括人们对信息重要性和需要的知识,以及为解决面临的问题确定、查询、评价、组织和有效生产、使用与交流信息的能力,这是有效进入信息社会的前提条件,是终身学习的基本人权的一部分。
第三节信息技术
概括地说,信息技术是指扩展人类信息器官功能的一类技术。
广义上,凡是涉及信息的产生、获取、检测、识别、变换、传递、处理、存储、显示、控制、利用和反馈等与信息活动有关的、以增强人类信息功能为目的的技术都可以叫做信息技术。
一、信息检索概述
(一)数据库技术
数据库是指为满足多个用户的多种应用需要,按一定的数据模型在计算机中组织、存储和使用的相互联系的数据集合。
它由相关数据集合以及对该数据集合进行统一控制和管理的数据库管理系统DBMS构成。
(二)数据通信技术;(三)多媒体技术
二、信息检索关键技术------数据库技术
(一)数据库技术简介
数据库(database)简称DB,数据库是计算机中存放数据的仓库,这仓库可以建立在计算机硬盘中,也可以建立在外存储媒介中,如磁盘、光盘等存储器中。
数据库系统实质上就是一个记录保存系统。
一个数据库系统的主要功能之一就是允许数据操作,还需要有许多的附加功能(例如屏幕格式定义、菜单定义、打印输出控制等)和数据定义(即建库功能)功能。
数据库功能:
允许数据操作;
附加功能(例如屏幕格式定义、菜单定义、打印输出控制等);
数据定义(即建库功能)功能。
数据库标准语言:
SQL语言。
(二)数据库特点
1.数据共享:
区别于文件系统的最大特点之一
2.面向全组织的数据结构化
3.数据独立性
4.可控数据冗余度
5.统一数据控制功能
(三)数据库的构成
从计算机信息检索的观点来看,数据库主要由“文档一字段一记录一数据项”四个层次构成。
1、文档:
数据库内容的组成的基本形式,是由若干逻辑记录构成的信息集合。
有顺排文档和倒排文档。
2、字段:
字段是记录的基本单元。
它是对实体的具体属性进行描述的结果。
在各类数据库中字段的内容是不同的,一般字段与信息的著录项目相对应。
根据与文献内容相关与否,字段分为:
基本字段、辅助字段
3、记录:
记录是文档的基本单元。
它是对某一实体的全部属性进行描述的结果。
全文数据库中,一个记录=一条完整的信息。
书目数据库中,一个记录=一条文摘或题目,或相当于图书目录的一个款目。
4、数据项:
数据项是根据字段内容所做的描述,是组成记录的最小单位。
第四节计算机信息检索概述
手工检索是检索人员采用人工匹配的方法进行检索的,它具有以下特点。
1.检索过程灵活2.检索结果准确3.检索不易查全4.检索速度不快
一、计算机信息检索的原理
计算机信息检索是指利用计算机存储信息和检索信息。
具体地说,就是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中匹配出所需的信息,再由终端设备显示或打印的过程。
为实现计算机信息检索,必须事先将大量的原始信息加工处理,以数据库的形式存储在计算机中,所以计算机信息检索广义上将包括信息的存储和检索两个方面。
计算机信息检索过程是用户对检索课题加以分析,明确检索范围,弄清主题概念、然后用系统检索语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行检索。
计算机按照用户的要求将检索策略转换成一系列提问,在专用程序的控制下进行高速逻辑运算,选出符合要求的信息输出。
计算机检索的过程实际上是—个比较、匹配的过程,检索提问只要与数据库中的信息特征标识及其逻辑组配关系相一致,则“命中”,即找到符合要求的信息。
二、计算机信息检索系统
计算机信息检索系统,是指按某种方式、方法建立起来的供用户检索信息的一种有层次的信息体系,是表征有序的信息特征的集合体。
在这个集合体中,对所收录的信息的外部特征和内容特征都按需要有着详略不同的描述,每条描述记录都标明有可供检索用的标识,按一定序列编排,科学地组织成一个有机的整体,同时应具有多种必要的检索手段。
其中,二次信息或三次信息是信息检索系统的核心和概括。
三、计算机信息检索语言
检索语言(RetrievalLanguage)是检索信息所使用的人工语言。
就检索语言的实质而言,它是从自然语言中精选出来并加以规范化的一套词汇符号,用以对信息内容进行概括其内容或外在特征的概念及其相互关系的概念标识体系。
检索语言由词汇和语法两部分组成。
1.检索语言基础知识
同义关系从属关系交叉关系矛盾关系对立关系
逻辑概念的关系
(1)等同关系:
两个或两个以上的词所表达的概念完全相同或基本相同。
①同义关系:
所表达的概念完全相同。
②准同义关系:
所表达的概念基本相同或相近。
形式~~近似词之间,泛指词语专只词之间,部分反义词之间。
在检索语言中,只能选择一个概念作为标引词,为保持事物-概念-语言形式对应关系。
(2)从属关系(上下位关系):
其中一个概念完全被包括在另一个概念的外延里,是另一个概念外延的一部分,其中外延较大的称为上位概念,外延较小的称为下位概念。
一系列丛书关系的概念总成为一个概念系。
(3)相关关系:
概念之间关系密切,又不同于等同关系和从属关系,互相联系得不像前两种关系那样关系密切。
①交叉关系(部分重合关系):
有一部分外延相重合的概念之间的关系,
②矛盾关系:
两个在外延上互相排斥,而它们的外延之和等于其共同上位概念的外延总和的概念间的关系。
③对立关系:
在外延上互相排斥,但外延之和不等于上位概念外延概念间的关系。
④并列关系(同位关系):
一个上位概念之下的几个下位概念之间的关系。
2.检索语言的类型
(1)分类语言
(2)主题语言
(3)关键词
3.信息检索语言的作用
信息检索语言的基本功能就是知识组织功能,可保证较高的检索效率。
情报检索语言的基本功能大致可归纳为如下四点:
(1)对文献的情报内容(及某些外部特征)如以标引的功能。
(2)对内容相同及相关的情报加以集中或揭示其相关性的功能
(3)对大量情报加以系统化或组织化的功能
(4)便于将标识用语和检索用语进行相符性比较的功能
4.常用主题词表
常用的主题词表有美国医学主题词表(MeSH)、荷兰医学文摘的主题词表(EMTree)和中国中医药学主题词表等,医学主题词表主要由字顺轮排表和树状结构表两部分构成。
(1)MeSH美国美国医学主题词表
字顺轮排表(索引)
是将主题词表中主题词和入口词按一定顺序(字顺等)排列而成。
入口词:
款目词,包括主题词的同义词、近义词、缩略语、不同拼写方式,倒装或顺装以及已经取消而意义相近的主题词。
树状结构表(范畴表)
将全部主题词按内容分为15个类目,各类主题词按各主题词内涵范围的大小逐级排列,形成树状结构。
树状结构表作用:
①便于选用恰当的主题词,根据词树上下位概念主题词的排列,有助于选用专指的主题词表或上位概念主题词。
(上下位概念:
上位词的范围大,下位词的范围小)
②扩展检索,按此表的上下位关系进行,将某主题词所有下位主题词标引的全部文献都检出。
副主题词(关联词)
使用时有明确规定,必须遵循其定义与使用范围。
副主题词也有上下位关系,使用时应选择恰当,以提高检全与检准率。
(2)国际系统医学术语集
(3)国际疾病分类法
(4)观测指标标识符逻辑命名与编码系统
(5)美国统一医学语言系统
第五节计算机检索方法
1.布尔逻辑检索(booleanlogic)2.位置逻辑检索(proximitysearch)
3.截词检索(truncation/wildcats)4.字段限制检索(fieldlimiting)
5.括号检索(parentheses)6.短语检索(phrasesearch)
7.模糊检索(fuzzysearch)8.加权检索(termweighingretrieval)
9.自然语言检索(naturallanguagesearch)10.多语种检索(multilingualsearch)
11.区分大小写的检索(casesensitive)
1.布尔逻辑检索(BooleanSearch)
布尔逻辑运算:
ANDORNOT
(1)AND:
逻辑“与”。
常用符号:
*
检索结果中每条记录必须同时含有A和B检索词,增强检索的专指性,缩小检索范围。
(2)OR:
逻辑“或”。
常用符号“+”。
表示包含检索词A的文献或包含检索词B的文献或同时包含检索词A和检索词B的文献均为命中文献,逻辑“或”扩大了检索范围,提高查全率。
某课题要求查找相关癌症的文献,而癌症有很多同个词来表达。
全部词的并列是检索结果。
(3)NOT:
逻辑“非”。
常用符号“-”
表示检索结果中每条记录必须包含检索词A,但不包含检索词B。
排除了不希望出现的检索词,缩小了检索范围,提高查准率。
布尔运算符的优先级
当一个检索表达式含有多个布尔算符时,执行的顺序:
NOTAND OR
可用圆括号改变运算顺序,将需要优先运算者置于圆括号中。
另:
在检索时,各数据库对布尔逻辑关系词的拼写要求不同,有的要求大写,有的不区分大小写;同时,不同数据库中布尔逻辑关系词的符号也会不同。
2.邻近检索
邻近检索,又称位置逻辑检索、相邻度检索。
它是基于文献中或文献记录中语词之间的相对次序或位置不同,它们所表达的意思可能不同;相应地,一个检索提问中语词之间的相对次序和位置不同,其表达的检索意图也不一样。
因此,可以使用一些特定位置逻辑算符来限定检索词之间的位置关系,使检索提问式尽可能表达检索者真正的检索意图,从而既提高检准率,又提高见检全率。
常用的位置算符有near、with等
near算符:
Anear(n)B,检索词位置相邻,但无顺序关系,可前可后。
with算符:
Awith(n)B,检索词位置相邻,但有顺序关系,A必须出现在B前面,不可颠倒.
3.截词检索
截词检索是指在检索词中保留相同的部分,用截词符号代替可变化的部分。
它是为了部
分解决由于检索式中对同义词列举不全造成的漏检现象而提出的,相当于用逻辑“或”扩展检索范围。
截词符号一般用“?
”或“*”等。
截词检索主要用于年代、作者、同根词和单复数词的检索,减少输入负担,节省间和费用,提高检全率。
按截断的字符数量的不同分为:
无限截词、有限截词。
(1)有限截词是用来对检索量进行限制的一种方法。
其原理是在词干前后加以字符限制,使得检索出的词除词干外,前后缀所含字符必须与限定字符个数一致,或者在限定数以内。
例如,银盘公司的MEDLINE光盘检索,computer?
可以查到有关computer、computers、comptery词,但不会检出computerized、computerizing、computerlab、computerphobia等词。
(2)无限截词按截断位置的不同分为:
右截词、左截词、中间截词(前截词,后截词,中间截词)。
例:
computer*可以查到有关computer、computers、comptery、computerized、computerizing、computerlab、computerphobia等词。
有的数据库采用截词符号,有的不用截词符号。
有的数据库中,会自动检测词根,并默认进行截词检索,进行词干检索,如新版Springerlink
4.限定检索
是指将检索词的匹配限定在某个或某些特定的字段范围内进行。
不同检索系统的字段限定方法可能不同:
“in”对某一或某些指定字段进行检索如:
asthmainTI
“=”用于限定性字段的检索如:
LA=ENGLISH
其他:
“<”,“>”如:
py<2000表示检索2000年前发表的文献记录
5、扩展检索
是同时对多个相关检索词执行逻辑或检索的技术。
即当用户
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 利用 概论 研究生 文献 基本概念