基于教育主题的垂直搜索引擎研究与分析.docx
- 文档编号:11403925
- 上传时间:2023-05-31
- 格式:DOCX
- 页数:11
- 大小:224.79KB
基于教育主题的垂直搜索引擎研究与分析.docx
《基于教育主题的垂直搜索引擎研究与分析.docx》由会员分享,可在线阅读,更多相关《基于教育主题的垂直搜索引擎研究与分析.docx(11页珍藏版)》请在冰点文库上搜索。
基于教育主题的垂直搜索引擎研究与分析
摘要
由于通用搜索引擎具有搜索信息量大、查询不准确、深度不够等缺点,本文在通用搜索引擎技术的基础上,依据专业领域搜索策略,设计并实现了一个面向教育主题的垂直搜索引擎系统,着重研究了专业网络蜘蛛定制,基于VSM的主题相关度算法和倒排索引建立等关键技术及其实现细节。
实验结果表明,该系统能够快速地响应用户的查询请求,并且返回结果具有较高的准确性。
实现了教育资源的共享,具有较高的应用价值。
关键词:
垂直搜索引擎;主题网络蜘蛛;主题相关度
Abstract
Thegeneralsearchenginehassomedisadvantages,suchastheamountofinformationistoolarge,thesearchresultsarenotaccurateenough,andthesearchdeepnessisinsufficientenough.Basedonthegeneralsearchenginetechnologyandaccordingtothesearchstrategiesofexpertisefield,thispaperdesignsandrealizesaverticalsearchenginesystemforeducationtheme.Wefocusonresearchingandrealizingsomekeytechniquesabouttheprofessionalcustomizationofwebspider,thealgorithmforthedegreeofsubjectrelativitybasedonVSM,andtheestablishmentofinvertedindex.Theexperimentalresultsshowthat,thissystemcanquicklyrespondtotheuser'squeries,andtheresultscanreturnwithahighaccuracy.Thesystemrealizesthesharingofeducationalresources,whichhasahighapplicationvalue.
Keywords:
verticalsearchengine;topicwebspider;subjectrelativity
目录
摘要I
AbstractI
第一章绪论1
1.1国内外的研究现状1
1.2研究意义2
1.3论文结构2
第二章搜索引擎及垂直搜索引擎相关介绍2
2.1搜索引擎的概念2
2.2搜索引擎的局限性2
2.3垂直搜索引擎的概念3
2.4垂直搜索引擎与搜索引擎的比较及其优点4
第三章基于教育主题的垂直搜索引擎研究与分析4
3.1教育主题垂直搜索引擎的体系结构设计4
3.1.1教育主题信息采集与主题识别模块5
3.1.2信息抽取与索引模块5
3.1.3用户接口与信息检索模块[9]6
3.2面向主题的垂直搜索引擎关键技术6
3.2.1面向教育主题的网络蜘蛛设计6
3.2.2基于Lucene索引的创建7
3.2.3检索与用户接口模块8
第四章总结8
参考文献9
基于教育主题的垂直搜索引擎研究与分析
第一章绪论
1.1国内外的研究现状
随着人们对网络信息需求的不断增加,产生了基于网络的搜索引擎,这成为了人们查找并获取信息的重要手段。
经过近年的发展,搜索引擎技术取得了极大进展,它建立了快速地从海量的互联网信息里定位和检索的途径,成为当代人日常生活和工作越来越不能缺少的重要工具。
但是,用户的个性化需求、信息多元化的发展等一系列因素的产生,使部分用户对引擎有了更深入、快速、及时等查询。
通用搜索引擎可以保证查全率,但是对某具体领域而言,无法为用户提供比较精准的信息。
因此,人们迫切希望可以有一种信息分类清晰、准确、全面、更新及时的专业搜索引擎来获取网络资源信息,而垂直搜索引擎迎合了这一需求[1]。
垂直搜索引擎提供的服务是通用搜索引擎所不能给予的。
主题的垂直搜索引擎针对的领域也不一样。
面向具体的某一特定领域的垂直搜索引擎能够为这一领域的用户提供更加一专业、更加精确、更加细化的服务。
现今,这种而向某一主题的搜索引擎越来越受到人们的关注,在国内外的市场上已经涌现出了很多样的产品,这些垂直搜索引擎包含了各个领域,如教育、社会问题、影视资讯、旅行、房产交易等等,几乎各个领域都发展出了自己的垂直搜索引擎,如Elsevier科学出版社开发的SCIRUS系统,是目前因特网上最全面、综合性最强的科技文献专业网站之一,FocusedProjec系统等。
我国的垂直搜索引擎市场还处于起步阶段,垂直搜索引擎自身的技术发展还不成熟,同时用户对于垂直搜索引擎的认知还非常欠缺。
但是在这样的环境下,还是涌现出了一批具有代表性的垂直搜索引擎网站:
搜房网,是专注于房产行业的搜索;酷讯,是一款以即}讨的生活信息为检索对象的垂直搜索引擎;职友集,是针对职业搜索,除此之外,还有摩狗汽车,络龙医搜、奇虎等等。
由此可见,这种而向具体某一主题、专业化的搜索引擎已经成为了现在的流行热点[2]。
1.2研究意义
针对某些领域特殊人群的特定需求,出现了垂直搜索引擎,它的出现,在快捷、专业、精准方面给人们提供了更好的检索服务。
当人们根据需要,给出关键词和例文,垂直搜索引擎可以在此基础上自动查找类似内容,提高了专题相关内容的覆盖率。
当主题搜索引擎集中某一特点领域时,可自动排除无关的干扰信息,提高准确率的同时也保证了信息的详细收录和刷新[3]。
1.3论文结构
本文共分为四章。
第一章阐述了教育主题垂直搜索引擎的研究背景、研究意义、国内外的研究现状。
第二章分析了搜索引擎与垂直搜索引擎的概念,它们之间的区别及相关知识。
第三章主要分析了教育主题垂直搜索引擎的体系结构和关键技术,阐述了Lucene的相关技术研究。
第四章对本文进行了总结。
第二章搜索引擎及垂直搜索引擎相关介绍
2.1搜索引擎的概念
搜索引擎是一种从互联网上获取、分析与处理信息并返回结果的系统。
对文本的查询和索引是搜索引擎的核心技术,它处理的是文本类信息,承续了信息检索技术,它的前身是全文的信息检索与网络软件,后来逐步发展为现在的搜索引擎。
它本质上是一个提供信息检索服务的Web服务器,声音、新闻组、图片、Web网页、Web网站都是它可以用来检索的资源,网页网址、网页内容摘要和网页的标题是它提供的主要信息[4]。
搜索引擎是一种计算机程序,它搜集并处理和组织网络上的信息,然后给用户提供运算后的信息,是提供检索服务给用户的系统。
2.2搜索引擎的局限性
(1)在信息搜集和检索的过程中缺乏同步性。
在网络上搜索信息时,专业的爬虫程序遍历互联网搜集的网页索引信息是搜索引擎的主要依据,但是,爬虫程序完成这项工作需要大量的处理时间,同时,它也不能随时随地遍历网络,而网络上的一些动态的内容越来越多,如新闻、股票等信息,而且变化较快。
它的用户查询和源信息是完全分开的,因此,它的信息采集是在确定的时间段内定期进行的。
这样的信息采集方式,决定了无法保证信息的及时更新。
(2)信息检索的方式存在单一性。
通用的搜索引擎存在查全率较低、容易漏掉信息的问题。
它只是提供分类浏览的查询检索和基于关键词的全文检索方式,因此,所得到的结果中往往含有很多无关的网页,也就导致了查准率的下降。
(3)信息检索的内容存在单一性。
现有的搜索引擎忽视了用户之间的差异性,也就是说,只要输入搜索的关键词汇相同,得到的搜索结果就会相同,这一点对所有的用户都是一样的。
但是在现实中,用户的需求往往是不同的。
(4)信息的服务方式存在被动性。
少数对搜索引擎系统了解的用户,可以使用好的关键词来构造查询,可以获得高质量的查询结果。
但是,对于绝大多数人来说,想要准确表述自己对信息资源的需求是很难的,同时,也不知道准确有效查找的方式,这种现象就是人们常说的信息迷失[5]。
2.3垂直搜索引擎的概念
垂直搜索引擎是一种专业的搜索引擎,它是针对某个特定的人群、领域或需求提供的有一定价值的信息,是对中某个主题的信息进行爬行、索引并整合,定向分字段抽取出需要的数据进行处理后再以某种满足用户个性化需求的形式返回给用户[6]。
垂直搜索引擎是对通用搜索引擎的延伸和细化,二者在基本原理和工作过程等方面基本相同,相对于传统的通用搜索引擎,垂直搜索引擎是对某一类网络信息深化和整合。
2.4垂直搜索引擎与搜索引擎的比较及其优点
表一:
垂直搜索引擎与搜索引擎的比较
目前,垂直搜索引擎已然成为搜索引擎技术的主要发展方向,它的优点主要有以下几点:
(1)采集的信息比较集中,关注某一个或几个学科领域,可以采用多种方法对信息进行组织整理。
(2)信息量小,节省存储和索引存储空间。
(3)一词或一字多义现象的可能性降低,利用专业词表可以对词汇进行规范和控制,减少歧义。
(4)查询响应时间短,可以采用复杂的查询方法提高精度[7]。
第三章基于教育主题的垂直搜索引擎研究与分析
3.1教育主题垂直搜索引擎的体系结构设计
面向教育主题的垂直搜索引擎系统主要包含信息采集模块与主题识别模块,信息抽取与索引模块,用户接口与信息检索模块三部分,总体结构设计如图1所示:
[8]
3.1.1教育主题信息采集与主题识别模块
在信息采集模块中,运用面向教育主题的网络蜘蛛对教育主题相关信息进行抓取,这是搜索引擎的第一个步骤,从某一个具有主题意义的种子URL开始,按照深度优先算法,采用多线程并行抓取方式自动在互联网上搜索爬行,遍历教育领域的门户网站,抓取与教育主题相关的网页,采集网页信息,抽取并压缩网页内容存入原始数据库中,然后跳转到网页中链接指向的其他网页,直至遍历整个网络。
在此过程中,运用主题识别算法对网络蜘蛛所采集的页面进行主题相关性判断,根据计算得到的相关度结果,对采集到的网页进行取舍,将相关度大于预先设定的阈值的网页保存到面向主题网页数据库中,舍弃与主题不相关的网页,这垂直搜索引擎的核心部分,可以控制信息采集的规模,保证采集到的信息的专业性,提高搜索的准确性。
3.1.2信息抽取与索引模块
信息抽取与索引模块对存储于面向主题数据库中的大量结构和非结构化的数据进行抽取,将网页主题块中特定的结构化信息抽取出来!
并进行过滤、分词等预处理操作,构造索引,计算词的权值按检索结果合理排序,并存入索引数据库中。
3.1.3用户接口与信息检索模块[9]
用户接口与信息检索模块是接受用户输入查询请求并将查询结果反馈给用户的接口界面,模块首先对用户输入的搜索关键字,排序方式进行分词等信息分析处理,然后在索引数据库中查找到包含搜索关键词的文本记录,并根据相关度评价和用户需要将记录排序,最后以超级链接的形式将提取网页的摘要信息反馈给用户。
3.2面向主题的垂直搜索引擎关键技术
3.2.1面向教育主题的网络蜘蛛设计
面向教育主题网络蜘蛛系统模型主要由信息采集模块,页面解析与过滤模块,主题相关性计算器,链接剪枝控制器4部分构成。
页面采集模块主要负责从初始URL队列出发,通过HTTP协议请求并下载web页面,采集URL指向的页面信息,送入页面解析与过滤模块中。
本文采用了多线程并发技术,大大提高了页面采集效率,页面解析与过滤对下载到原始数据库中的页面信息进行消重处理,解析web页面,提取例如链接文本,结构信息,链接URL地址等数据。
主题相关性计算器主要是对网址解析与过滤模块中提取的网页内容文本进行主题相关性判定,将主题相关度大于预先设定阈值的网页保存在面向主题数据库中,过滤掉与主题相关度较低或不相关的页面,从而保证网络所采集页面的主题的相关性与专业性,链接剪枝控制器的任务是从与经过过面向主题数据库相关结果集检索与用户接口模块查询结果分析网页搜索查询结果显示信息抽取与索引模块网页结构化信息抽取建立倒排索引信息采集与主题识别模块主题采集Web信息提取页面分析与过滤URL与主题相关性计算web索引数据库,过滤后得到的主题相关的页面中抽取出链接URL,并采用主题相关计算方法对URL进行筛选,将有价值的URL暂存在待搜索URL队列中,按照主题相关度大小进行排序,相关度越高的越先被访问。
面向教育主题的网络蜘蛛工作流程如图2所示:
[10]
3.2.2基于Lucene索引的创建
垂直搜索引擎在同一时间会接受大量的用户的查询请求,这就要求索引模块完成大量的运算操作,以提高检索模块的工作效率。
Lucene是用JAVA实现的开放源代码的全文检索引擎工具包,是一个高性能、可伸缩的信息搜索库,本文正是基于Lucene技术建立索引,其工作方式如图3所示:
[11]
索引网页库存储链接与其指向网页的映射,文本解析器用来分析和处理不同格式的文档,提取正文信息,过滤垃圾信息,中文分词切分索引项等操作,形成统一格式的文档,存储于文本中间格式数据库中,由于中文构词方式的差异,需要对中文网页进行分词,以便建立索引文件。
本文采用双向哈希索引词典,对数据库中中文网页进行分词处理,文本中间格式数据库存储经文本解析器提取、过滤、分词等操作的数据,数据格式为纯文本格式,为索引器提供可分析数据,索引器是垂直搜索引擎中用来分析处理文本中间格式数据库中的非结构化文档信息,建立索引的程序,主要任务是按照预设的索引项建立索引列表,更改索引字典,文本索引库中存储以索引形式组织存放的文档信息数据文件,一般的数据库系统不能同时满足大量用户的查询请求,所以在本系统中采用了倒排索引技术,创建倒排索引包括建立正向索引,创建反向索引,归并索引等操作,将存放词和编码意义映射关系存储于索引字典中。
3.2.3检索与用户接口模块
面向教育主题的垂直搜索引擎通过检索模块实现与用户的交互,系统对通过接口输入的查询短语进行分词等操作,将它传送至检索器,检索器根据查询项在索引文件上查找,按照与查询项相关程度排序,并将结果通过用户接口呈献给用户,其主要流程如下:
(1)通过用户接口接受用户的查询项,并对其进行分析分词等处理。
(2)搜素包含关键词的网页,过滤掉与查询项不相关的网页。
(3)按照与查询项相关度大小对匹配的网页排序,以链接形式呈现给用户[12]。
第四章总结
本文详细描述了面向教育主题的垂直搜索引擎系统的总体设计,从教育领域信息搜索的实际出发,着重研究了主题网络蜘蛛、倒排索引建立等关键技术,并给出了具体的实现细节!
在此基础上,开发了一个面向教育主题的垂直搜索引擎,该系统能够有效地采集分散的教育主题相关网页,形成面向教育主题网页数据库,快速地响应用户的查询请求,准确地返回相关度较高的网页,实现了教育资源的共享,具有较高的社会价值。
参考文献
[1]XuePing.TheResearchandImplementationofVertiealSearehEngineBasedontheEdueationalField,2011.
[2]WEIRenjia,WUZhenqiang.Designandimplementationofverticalsearchengineforeducationvideoresources.ComputerEngineeringandApplications,2014,50(15):
113-116.
[3]叶浩明.面向高等教育领域的垂直搜索引擎的设计与实现[D].成都:
电子科技大学,2014.
[4]杨小丹.面向教育资源搜索引擎的妍究与实现[D].成都:
电子科技大学,2015.
[5]ZhangYanchen.BasedonTheUniversityInformationVerticalSearchEngineResearchandImplementation,2011.
[6]ZhangJin.ResearchandDesignofVerticalSearchEngineBasedontheFieldofEducation,2014.
[7]翟晓玲.面向学科的基础教育资源垂直搜索引擎的研究与实现[D].东北师范大学,2013.
[8]王树文,郑阔实,陈竟博.面向教育主题的垂直搜索引擎的设计与实现[J].长春师范学院学报(自然科学版),2013,32
(2).
[9]李伟.面向远程教育主题搜索引擎的研究与实现[D].西安:
电子科技大学,2012.
[10]ZhangQian.TheResearchofVerticalSearchEngineBasedontheEducationInformation,2012.
[11]万亚君.面向基础教育资源的个性化垂直搜索引擎[D].北京工业大学,2014.
[12]TianJun.Designandimplementationofsearchengineforteachingapplicationsoffoundationeducation,2015.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 教育 主题 垂直 搜索引擎 研究 分析