新版网络信息资源自动标引课件doc.docx
- 文档编号:16157317
- 上传时间:2023-07-10
- 格式:DOCX
- 页数:29
- 大小:200.09KB
新版网络信息资源自动标引课件doc.docx
《新版网络信息资源自动标引课件doc.docx》由会员分享,可在线阅读,更多相关《新版网络信息资源自动标引课件doc.docx(29页珍藏版)》请在冰点文库上搜索。
新版网络信息资源自动标引课件doc
网络信息资源自动标引
——面向中文网络文本信息的研究
附注:
网络信息资源自动标引
——面向中文网络文本信息的研究
信息管理系朱琳、杨梁彬
摘要
摘要:
面对以指数级速度增长的海量网络信息资源和迅速增加的网民,如何有效的利用Internet信息资源成为一个急待解决的问题。
本文正是针对这一点,面向中文网络文本信息资源,着重以网络中文信息资源的自动标引为切入点进行研究。
一、引言
Internet的信息资源对局域网信息资源的空间拓展是革命化的,它具有数量巨大,增长迅速,形式多样,变化频繁,分布广泛,结构复杂等特点。
目前全球有3.2亿人上网,并每天有超过4000台计算机入网,每年以15~20%的速度增长。
到2000年,超过100万个网站,1亿台计算机和10亿个用户上网。
在中国,从90年代中后期开始,Internet的发展更是日新月异。
根据中国互联网络信息中心(CNNIC)公布的第十二次中国互联网络发展状况调查报告(2003年7月),目前我国上网计算机数达2572万台,上网用户达6800万人。
在传统的信息组织工作中,人们主要采用的是人工标引,这种标引方法由于人为控制因素的加入,所以标引深度比较高,也比较准确。
但是完全人工的做法使得这种标引的成本很高,而且由于人的精力是有限的,所以标引的速度、数量、质量也只能勉强满足传统信息源的新增水平,此外,由于主要是人工完成,因此一些外界影响因素的干扰十分明显,比如:
标引人员本身的素质、标引内容是否是他们比较熟悉的内容,甚至标引人员的心情都会极大的影响标引结果。
网络信息资源不同于以往的那些书本、报刊等传统信息源,它的数量极大,并且每天都在不断的膨胀中,而且其内容变化更新频繁,发布的机构复杂、来源混乱,仍然采用人工标引的方法显然是不适应的了,我们对网络资源的加工整序,就不得不考虑一些新的方法。
当前,最可行的就是引入机器,实现自动化处理。
其一,是对网络资源,主要是网页的文本信息进行自动标引处理;其二,则是考虑从文本检索的角度实现网络资源的整序与应用。
对于自动标引,其优势是显而易见的。
首先,自动标引可以实现较高的速度和质量赋词,这样就可以从容地处理高速膨胀的网络资源,同时,也可以适应网络资源更新快、不稳定的特点。
其次,自动标引的费用比较低,在投入了初期的系统建设、硬件购买的固定成本后,其边际成本增长是比较低的,更适合标引数量大的信息源。
而人工标引的成本却只会随着标引数量的增加而相应增加,在网络时代显得不够经济。
再次,自动标引的质量随着现有技术的提高更加符合人们的需要,它的标引能力、处理稳定性都大大的超过了人工标引。
美国学者伦兹曾做过两实验,6名标引人员在不同时间标引同一文献,标引一致率为0.158(假定完全一致为1.0);由同一标引人员在不同时间标引同一文献,标引一致率为0.1619;若采用计算机自动标引,不论何时对同一篇文献总能标引出相同的主题词。
美国学者Salton对MEDLARS和SMART作一些比较,前者是受控人工标引系统,后者是自动标引与检索系统。
其结论是:
相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平。
而文本检索的介入则是网络环境下特有的产物。
在传统的信息组织过程中,标引和检索是两个相对比较独立的过程,一篇文献的处理顺序是首先进行人工的标引,然后面对用户的检索提问采取相应的策略完成信息检索。
而在网络环境下,这两者的分歧就要小的多,一些国外的学者甚至认为自动标引可以由文本检索替代,而且其效果会更好。
在我们看来,这样的结论过于武断。
文本检索和自动标引的确是有一定的相似之处的,它们都是以语词匹配为基础的,其差异在于文本检索系统是后组式的,对信息资源不进行比较深的加工处理,因此在输入检索式之后系统负担较重,等待时间可能会比较长;而自动标引则有一个完备的标引结果的,在输入检索式之后,实质上是在一个先组的环境下检索,因此系统的负担比较,等待时间可以大大缩短。
所以,这两种方法各有优势,不能片面的说哪种更好。
本文着重从自动标引角度出发,面向中文网络文本信息资源,通过对现有自动标引系统的研究以及相关理论的探索,关注中文网络文本信息资源的整序和组织,借此来提高自己的专业素养和理论水平。
二、网络资源概况
1、中国互联网络发展简况
截止到2003年6月30日,我国的上网计算机总数已达2572万台,同上一次调查结果相比,我国的上网计算机总数半年增加了489万台,增长率为23.5%,和去年同期相比增长59.5%,是1997年10月第一次调查结果29.9万台的86倍,可见我国上网计算机总数呈现出比较快的增长态势,具体增幅可见图表1:
图表1历次调查上网计算机总数(万台)(1997年10月~2003年7月)
截止到2003年6月30日,我国的上网用户总人数为6800万人,同上一次调查相比,我国上网用户总人数半年增加了890万人,增长率为15.1%,和去年同期相比增长48.5%,同1997年10月第一次调查结果62万上网用户人数相比,现在的上网用户人数已是当初的109.7倍,见图表2:
图表2历次调查上网用户总数(万人)(1997年10月~2003年7月)
2、中国互联网络资源简况
1)WWW站点数
截止到2003年6月30日,我国WWW站点数为473900个,半年内增加102300个,增长率为27.5%,和去年同期相比增长61.6%,见图表3:
图表3历次调查WWW站点个数(2001年1月~2003年7月)
2)全国网站的页面数以及字节数
根据中国互联网络信息中心(CNNIC)2002年信息资源数量调查报告,我国目前网页数量以及字节数如图表4所示:
网页数
全国网页总数
157,091,220个
其中:
静态网页数
104,593,217个
动态网页数
52,498,003个
静动态网页数比例
1.99:
1
平均每个网站的网页数
423个
网页字节数
全国网页总字节数
2,877,754,095KB
每个网页平均字节数
18.319KB
平均每个网站的网页字节数
7744.2KB
图表4全国网站的静动态网页数以及字节数(数据截至日期2002年12月31日)
3)网页的内容分类
Htm/
36.80%
html
16.35%
shtml
5.36%
/
3.99%
asp
2.93%
php
1.08%
txt
0.34%
nsf
0.17%
xml
0.15%
jsp
0.11%
cgi
0.08%
pl
0.03%
其它
32.61%
图表5网页的格式分类情况(数据截至日期2002年12月31日)
4)网页的更新周期
图表6网页的更新周期(数据截至日期2002年12月31日)
3、本文所要探讨的主要对象
1)、Web页面文本特点
✓结构松散:
目前存储在介质上的Web页面主要是用HTML语言标记的文本文件,每个特定的Tag都具有特定的意义,文本可以在页面的不同地方自由出现。
Web页面的文本字串缺乏普通文本中字串的属性,比如:
位置信息(标题、小标题、段首、段尾等)。
✓主题杂合:
Web页面的内容和主题相对比较散,一个页面往往包含若干主题,同时还包括了大量的超级联接。
✓处理不同:
网页文本的内容处理有别于传统文本处理,尤其值得主义的是一些网络用语的出现。
✓处理要求低:
用户感兴趣、需要深入研究的网页其实比例比较低,因此,Web页面的文本自动标引,由于其主要目的是加快网络用户对页面的浏览速度,方便人们利用Internet网络资源,因此必须效率优先,保证标引的覆盖面足够大,其次才能考虑设法提高标引的准确性。
2)、对中文网页文本的限定
本文主要处理对象为网页中的文本信息,这是因为在Internet所提供的多媒体信息资源中,文本信息数量最大、更新最快,而且其实际有效性也最高。
为了研究更有针对性,我们将目光主要集中在中文文本信息上,对于其他诸如类型的网页信息,比如:
图像、音频、视频信息等暂时不予考察。
3)、不考虑中文分词难题
近10年来,语言学界、人工智能领域和情报检索界的学者在汉语自动分词与标引的研究与实践上进行了大量的研究,找到了许多解决汉语分词的方法。
80年代以来见诸报端的自动分词方法归纳起来有:
最大匹配法、逆向最大匹配法,逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想———回溯法、双向扫描法、邻接约束法、扩弃转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等22种。
但是,由于汉语结构上的复杂性、切分的模糊性以及语法分析问题等诸多因素的影响,汉语自动分词未能取得重大的实质性突破。
这一问题的搁浅直接影响了汉语文献的自动标引及汉语的句法分析与语义分析研究,成为中文自动标引研究发展的瓶颈。
所以,为了简化研究,我们暂时先绕开中文分词这一难点。
三、相关概念
1、自动标引原理以及已有方法
1957年,美国IBM公司的H.P.Luhn发表了两篇论文,首次将计算机技术引入文献标引领域,开创了以自动标引为特征的现代标引方法。
三十多年来,人们试用了各种各样的方法,取得了不同程度的成功,我们可以将这些方法大致的归纳为三大类,即:
统计标引法、概率标引法、句法分析法、语义分析法和人工智能法。
1)、统计标引法
这种标引方法是最早使用的一种自动标引方法,它根据Zipf在《人类行为与最小力气法则》中提到的“省力法则”(Principleofleasteffort),他认为人类在一定时期内,用最少量的词来传递最大量的信息。
统计标引法依据下述假设来选择标引词:
某词在文献中的出现频率与该词的文献区分功能有密切关系。
一个词(实词)在文献中使用越频繁,就越有可能是一个指示主题的词。
该方法包括:
词频统计标引法、加权统计标引法、N-Gram法等。
具体说来,就是将某一篇较长的文章(约500字以上)中每个词出现的频率按照递减顺序排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,频次最高的是1级,其次是2级,3级…,如果用f表示词在文献中出现的频次,用r表示词的等级序号,则有fXr=c(c为常数)。
通过对这些词语的统计,求出其中的高频词、中频词和低频词,并使用中等频率的词语作为标识文献的主题词。
除此以外,还可以根据取词的不同位置、词语本身的重要性给每个词赋予不同的权值,使得最终的加权统计结果更加符合实际情况,更能体现文章的主题。
这种标引方法最大的优点是简单易用,而且符合人类语言应用的一般特征。
但是使用这种纯粹统计的方法去处理千差万别的人类思维的成果,往往显得力不从心,因此这种方法还需要和别的方法结合使用。
2)、概率标引法
概率标引法所依据的概率主要有相关概率,决策概率和出现概率。
基于相关概率的标引法一是根据包含相同标引词的提问与文献的相关概率来标引划分文献,如二值独立性标引模型;一是根据具有一定联系的文献之间的相关概率来标引特定的文献,如基于被引用与引用文献的标引方法。
基于决策概率的标引方法主要是依据某标引词赋予某文献这一决策事件正确的概率来标引文献,如DIA标引方法。
而RPI模型则是同时以需求一文献相关概率和叙词标引文献正确的决策概率为基础而构造的标引方法。
基于出现概率的标引方法是根据词在文献中的出现频次所服从的概率分布的特征来选择标引词,如2—Poisson模型。
这种标引方法目前还处于理论阶段,具体的标引工具还没有出现。
3)、句法分析法
句法分析法利用计算机自动分析文本的句法结构,鉴别词在句子中的语法作用和词间句法关系,前苏联开发的自动标引系统多采用此法。
它们一般都借助词典来制定词的语法范畴,以此作为句法分析的基础,最终抽出可做标引词的词语。
句法分析法从文献的标题出发,分析其内在结构,其假设是文章的标题是可以基本反映文章的主要内容。
它从语法角度上确定句子中每个词的作用(如主语还是谓语)和词之间的相互关系(如是修饰还是被修饰),并通过与事先准备好的解析规则或语法相比较而实现。
句法分析基于深层结构的标引法将文献标题可能反映的主题内容归纳为有限的几种元素基本范畴,并使用简洁的句法规则,减小了句法分析的复杂性。
数字化指示符和处理码标识的运用更方便了计算机的识别处理。
但是这种方法在主题名称的范畴分析及主题标目的选择等方面需要较多的人工干预,影响了其自动标引效率。
另外,这种方法仅以文献标题为标引对象,虽然主题内容容易突出,但标题句法形式的规范性一般较差,增加了句法分析的难度,同时过窄的分析范围容易漏标一些相关主题。
4)、语义分析法
语义分析标引法通过分析文本或话语的语义结构来识别文献中那些与主题相关的词。
这种方法本身受制于语言学的发展,而众所周知的是语言学,尤其是计算语言学本身的研究难度,所以目前利用语义分析的方法进行标引的研究还不多,所能见到的有诸如:
潜在语义分析标引法、相信函数模型和语义矢量空间模型等。
学术界对从语言学角度研究自动标引的做法颇有争议,反对者的主要理由包括:
语言法的使用限制多、语言学领域的研究成果对促进自动发展帮助甚微等。
5)、人工智能法
人工智能是计算机科学的一个分支,它专门研究怎样用机器理解和模拟人类特有的智能系统的活动,探索人们如何运用已有的知识、经验和技能去解决问题。
实现自动标引的目的是让机器从事标引工作中的脑力劳动,即让计算机模拟标引员完成标引文献的工作,因此,人们把人工智能法运用于自动标引研究既顺应自然,又带来新的活力。
人工智能应用在标引中的具体技术是专家系统,专家系统的知识表示方法主要有产生式表示法、语义网络表示法和框架表示法。
采用人工智能法进行自动标引比在相同专业领域中运用其他方法要复杂,但人工智能法是真正从标引员思维的角度模拟标引员的标引过程,这显然比以被标引文献为出发点的其它自动标引方法更有希望获得理想的标引效果。
其中具有代表性的有:
基于产生式表示法的JAKS系统、基于语义网络表示法的WorldViews、MedIndEx系统和汉语自动标引专家系统DIES等。
2、汉语自动标引技术
我国研究人员60年代初开始关注自动标引的研究动向,70年代末开始探索汉语文献自动标引问题,他们在TK-70计算机上建立了一个试验系统,借助词典对文献题名进行切分,然后使用一套组词规则将切出的小词组成专指的关键词输出。
比较有代表性的自动标引系统有基于部件词典的启动标引系统、基于规则与词典的自动标方法、基于非用字后缀表法的自动标引等。
1)、词典标引法
词典标引法是一个传统的标引法,在目前的国内自动标引中应用得相当普遍。
其思想是构造一个词典(主题词典、关键词典、部件词典等),然后设计各种算法用文献数据去匹配词典,抽出标引词。
但是词典的构造困难,词典的维护也需要付出相当大的代价,并且是永无尽头的。
当今社 会,经济和科学技术都飞速发展,新概念、新词汇层出不穷,词典法的明显缺陷就在于学习新词的能力差、设计词典的工作繁重、需要大量的专业人员的参加、空间开销很大、更新滞后等。
所以词典法里词典的构造完善与否直接影响到标引质量。
2)、切分标记法
切分标记法是将能够断开句子或表示汉字之间关系的汉字集合组成切分标记机内字典。
切分标记字典既有用词首字、词尾字、不构词的单字或几种情况的组合来构建的,也有用“非用字”、“条件用字”等来组成的。
当原文句子被切分标记字典中的汉字构词属性分割成汉语词组或短语之后,再按一定的分解模式分割成单词或专用词组。
该方法的关键在于词语切分。
吴蔚天、田鹤卿先生提出的实现汉字科技文献自动标引的非用字后缀法是一个典型的切分标记法。
该法将汉字用与不用机械地分为四个类别:
A表外用字、B表内用字、C条件用字、D非用字,并根据这些字的属性构造了一个字典——非用字后缀表。
实现时,机器自左至右扫描汉字,逐字对照非用字后缀表。
将用字取出,非用字舍去。
切分的原则是有联系则取,无联系则断。
该方法在微机上实现标引,证明其简单易行,并能获得较高的准确率。
3)、语法分析标引法
语法分析标引法是通过对自然语言文法或句型文法的分析来抽取主题词加以标引。
由于汉语自然语言文法复杂,规则较多,目前还没有一个形式化系统能对汉语文法进行描述。
但是句型文法分析则相对容易。
如:
科技文献的标题和文摘中的句型种类较为有限,如“本文讨论了……”等,几乎出现在每一篇文献中,而这些句子对自动标引来说则非常重要,因为这些句型正是表达文献主题内容的句型。
因此可以用句型文法来描述现代汉语,进而抽取主题词进行标引。
4)、汉语文献标引专家系统
汉语文献自动标引专家系统的基本原理是,以现有的汉语专业主题词表为基础,构建概念语义网络,根据一定的抽词规则、标引规则和专门知识,对所处理的素材进行分析、判断,选择和确定标引主题词。
汉语自动标引专家系统是以汉语语义理解为特征的自动标引系统。
由于汉字构词具有极大的灵活性,汉语词性缺乏严格的规定性,汉语词汇没有严格的形态变化,再加上汉语文献作者使用语言的多样性和不规范性,造成同一主题可以有多种表达方式,一种表达方式在不同的语境中可以表达多个主题。
目前已提出的各种汉语自动标引方法,基本不进行语义理解,只从形式上进行机械地匹配抽词来完成标引,这种语言表层的标引方式必然出现标引素材与原文主题内容不符的局限。
要提高标引的准确性和真实性,就必须进行语义理解,在语言深层实现标引,因此汉语自动标引专家系统代表了今后汉语自动标引的发展方向。
但是专家系统中知识库的构造和推理机制的建立具有相当大的难度,它的实际处理技术与已建立的语义形式化理论还有很大的差距。
目前汉语自动标引专家系统只处在初期的试验阶段,远未达到实用水平。
5)、单汉字标引法
单汉字标引法吸收了西文自动抽词标引的部分思想,在标引时将概念词拆成单汉字,以单汉字为处理单位,利用汉字索引文件实现自动标引和逻辑检索。
它完全摒弃了人工的构造字典,对每个汉字的标引完全由计算机自动进行,保存了文献文本的原貌,因此也就没有主观性的成分。
由于这种方法把对“词”的处理改为对“字”的处理,因此就绕过了汉字分词的难题。
单汉字标引和检索的基本过程中,标引时计算机对处理的文本逐一抽字,经过一些处理(如去掉无意义的虚字)后,建立索引文件。
检索时输入的检索字与索引文件进行比较,并做一些逻辑组配,得出检索结果。
四、自动标引实例研究
1、几个已见报道的自动标引实例
时间
研究者
单位
研究目标
1994年
Kam-FaiWong
香港中文大学
并行标引
1994年
史继红、赖茂生
北京大学信息管理系
汉语自动标引加权方法试验研究
1994年
袁庆华
总后档案馆
自动标引“匹配标引法”原理
1995年
牛凯
四川省农业科学院科技情报研究所
针对科技文献
1995年
唐振民、靳从、杨静宇、李远复
南京理工大学信息自动化与制造工程学院
一种用于自动标引系统的主题词自动切分方法
1996年
单莉
上海大学
快速匹配标引方法
1996年
GeoffreyZ.Liu
美国加利福尼亚州圣何塞州立大学图书情报学院
语义矢量空间模式(SVSM)及其试验评价——自然语言处理与文献自动标引
1996年
靳从、樊春丽、杨静宇
南京理工大学
主题词自动标引中的知识处理方法
1996年
兰生柱、尹秀兰、张远宁、曲爱丽、刘国庆
解放军档案馆
文书档案主题自动标引系统的设计与实践
1996年
方懿
南京大学信息管理系
两种自动标引法的比较及改造
1998年
何新贵、彭甫阳
北京系统工程研究所
统计方法结合受限自然语言理解技术用模糊方法抽取关键词
1998年
张琪玉、朱丽
空军政治学院
动态构词
1998年
陈光华
台湾大学图书馆和信息科学系
主题转译标引技术
1998年
许建潮等
吉林工学院
针对文书类档案
1998年
单永明
山西大学计算机系
对规范文本篇章结构
1998年
张琪玉
空军政治学院信息管理系
概念或标识自动转换技术的应用
1998年
刘开瑛等
山西大学计算机系
通过文本的信息特征区域抽取
1998年
石国华
杭州大学
科技文献主题词的自动标引法
1998年
邵艳秋、刘挺、王开铸
黑龙江交通高等专科学校计算中心、哈尔滨工业大学计算机系
中文科技文献题内自动抽词标引系统
1999年
王永成、韩客松、王刚等
上海交通大学
针对生物学文献
1999年
胡盈盈
南京大学
单汉字标引技术
1999年
肖明
北京师范大学信息技术与管理学系
基于《中国分类主题词表》的WWW科技信息资源自动标引设计方案
1999年
熊志云
湖北大学人文学院档案系
网络环境下档案主题自动标引的实现方法
2000年
江苏公安专科学校
公安文献全文著录、机助标引及检索系统(PWDBC)
2000年
许玲
曲阜师范大学图书馆
计算机模糊检索在图书自动标引中的应用
2001年
韩客松、王永成
上海交通大学
中文全文标引的主题词标引和主题概念标引方法
2002年
王兰成、冯文杰、田梅
南京政治学院上海分院信息管理系
基于中国档案主题词表的自动标引控制研究
2002年
查贵庭、侯汉清
南京农业大学信息管理系
基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验
2002年
马然、侯汉清
南京农业大学信息管理系
基于引文的自动标引法初探
2002年
张琪玉
南京政治学院上海分院信息管理系
字面相似聚类法辅助构造词族表、分面类表和自动标引
2002年
仲云云、侯汉清、薛鹏军
南京农业大学信息管理系
网页自动标引方案的优选及标引性能的测评
2003年
叶至清、刘瑞红、袁庆、胡修兰
成都飞机工业(集团)公司、成都电子科技大学
计算机辅助标引系统
图表7几个已见报道的自动标引实例
2、相关论文开发状况
论文题目
作者
登载刊物
发表日期
关键词
自动标引“匹配标引法”原理
袁庆华
档案学研究
1994
(2)
汉语自动标引加权方法试验研究
史继红、赖茂生
现代图书情报技术
1994(3)
自动标引/标引词加权方法
一种用于自动标引系统的主题词自动切分方法
唐振民、靳从、杨静宇、李远复
南京理工大学学报
1995(5)
语言处理/信息处理/识别/知识工程
文书档案主题自动标引系统的设计与实践
兰生柱、尹秀兰、张远宁、曲爱丽、刘国庆
档案学通讯
1996
(2)
主题词自动标引中的知识处理方法
靳从、樊春丽、杨静宇
情报理论与实践
1996
(2)
Naturallanguageprocessing/
Automaticindexing/
Knowledgeengeering/
Informationprocessing
两种自动标引法的比较及改造
方懿
现代图书情报技术
1996
(2)
情报检索/切分法/自动标引/单汉字法
语义矢量空间模式(SVSM)及其试验评价
——自然语言处理与文献自动标引
GeoffreyZ.Liu
情报学报
1996(12)
情报检索/自动标引/语义矢量空间模式
中文科技文献题内自动抽词标引系统
邵艳秋、刘挺、王开铸
电脑学习
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 新版 网络 信息资源 自动 标引 课件 doc