数据库调查报告.doc
- 文档编号:2623506
- 上传时间:2023-05-04
- 格式:DOC
- 页数:13
- 大小:41.19KB
数据库调查报告.doc
《数据库调查报告.doc》由会员分享,可在线阅读,更多相关《数据库调查报告.doc(13页珍藏版)》请在冰点文库上搜索。
(范文)
数据搜索系统调查研究报告
一、选题意义
1.随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。
作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。
搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。
网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。
2.随着信息科学的进步与互联网络的发展,网络上的信息资源越来越多,公用数据库的飞速发展为用户查询各种信息提供了可能。
我国有数以百万计的网络用户并且用户人数仍然在急剧的增加。
随着计算机技术、网络技术及通信技术的发展,各种相关信息愈来愈多地通过网络为人们所利用。
而用户深感困惑的是很难在浩瀚如海的信息网络空间里快速、准确的查找到所需要的信息。
当用户面对成千上万的超级链接时便难以检索到合适的信息。
于是,借助搜索引擎进行搜索就是一个非常重要的手段。
随着因特网的迅猛发展、web信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。
目前搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
搜索引擎(searchengine)是随着web信息的迅速增加,从1995年开始逐渐发展起来的技术。
据发表在《科学》杂志1999年7月的文章《web信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9t,并且仍以每4个月翻一番的速度增长。
用户要在如此浩瀚的信息海洋里寻找信息,必然会大海捞针无功而返。
搜索引擎正是为了解决这个迷航问题而出现的技术。
搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。
搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为网络门户。
搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。
。
。
。
本文旨在对搜索引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。
二、关键技术综述(技术术语)
1.引擎分类1)目录式搜索引擎:
以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
信息大多面向网站,提供目录浏览服务和直接检索服务。
该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。
这类搜索引擎的代表是:
yahoo、looksmart、opendirectory、goguide等。
2)机器人搜索引擎:
由一个称为蜘蛛(spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
服务方式是面向网页的全文检索服务。
该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。
这类搜索引擎的代表是:
altavista、northernlight、excite、infoseek、inktomi、fast、lycos、google;国内代表为:
天网、悠游、openfind等。
3)元搜索引擎:
这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
服务方式为面向网页的全文检索。
这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。
这类搜索引擎的代表是webcrawler、infomarket等。
3.各种搜索引擎的不足之处
(1)大多数中文搜索引擎的查询方式较为单一
一般搜索引擎只提供分类浏览的查询方式和关键词全文检索查询方式,缺乏其它途径的查询方式,并且关键词全文检索模式也比较简单,这将导致信息查询的查准率不高的后果。
(2)目前网上的中文信息较少
相比网上外文信息而言,网上中文信息资源较少,且isp中文站点的质量也良莠不齐,信息更新的速度慢。
通常是几个月才有所更新。
对搜索引擎而言,isp站点的内容的质量也非常重要,它和搜索引擎之间是鱼水关系。
(3)采用的技术比较落后
国内的网站所采用的收集资料的技术比较落后,目前我国自行建立的搜索引
擎,如搜狐对站点的描述不多,与国外著名搜索引擎相比还有很大差距。
这是由于它们均采用目录式搜索引擎(directorysearchengine),即通过人工发现信息并依靠编目员的知识进行分类。
这种引擎的优点是准确度较高,缺点是信息量小且维护所耗费的资源大。
分析各种中文搜索工具,由于中文编码的特殊性和搜索工具设计者的局限性,目前的中文搜索工具在实际应用中仍反映出一定的不足,有的收集范围小、信息量少;有的搜索能力弱,反馈信息少;有的不支持某一种中文编码类型,从而使获得的信息资料不齐全、不完整,有的返回的信息很多但是查准率较低。
所有这些问题的实质是搜索引擎缺乏知识的理解能力和处理能力,对要检索的关键字词只是简单的进行机械的匹配来实现。
我们可以借鉴一些新的技术方法来优化中文搜索引擎的功能。
三、研究内容
1.web搜索引擎工作原理和体系结构
。
。
。
略
2.nutch分布式搜索引擎的分析
。
。
。
略
3.lucene中文分词算法
。
。
。
略
四、研究方法(这里只是作了简单的介绍)
1.搜索引擎示意图(如图1,搜索引擎能够接受用户通过浏览器提交的查询词或则短语,记作q0;并在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表记作l,这个列表的每一个条目至少包含三个元素标题,网址链接,摘要)
图1
2.现代高质量的搜索引擎一般采用如图2所示称为三段式的工作流程,即网页搜索,预处理,查询服务。
图2
3.搜索引擎的体系结构如图3:
图3
4.nutch的架构(图4)和工作流程(图5)
图
4
图5
5.lucene的功能主要包括两块,意识文本内控经切词后索引入库,二是根据查询条件返回结果,如图6是lucene的两大功能的逻辑图。
篇二:
数据库软件调研报告
数据库软件调研报告
卢文涛
(清华大学水工01,北京100084)
摘要:
从理论和实践两方面作为切入点,采用查询资料的调研方法,明晰了数据库软件的基本定义,并总结出oracle、sybase、microsoftsql三款数据库软件的共性和特性。
通过对比,最终决定使用oracle的数据库软件。
关键词:
数据库软件;水文;资料
abstract:
throughboththeoreticalandpracticalresearch,usingthemethodofliteraturereview,ihasclarifiedthedefinitionofdatabasesoftware,andsummarizedthemutualcharacteristicsoforacle,sybaseandmicrosoftsql.bycontrast,theoracledatabasesoftwareistheoptimalchoice.
keywords:
databasesoftware;water;information
1.调研方法
在调研过程中需要用不同方法从不同角度来更加全面的了解水文数据库的情况,所以我在调研中的思路主要分为两个方面—理论和实际。
1.1.理论调研
理论调研主要是调研数据库的具体性质,通过查询资料和访谈法对数据库软件做了详细了解,研究了不同数据库软件的共性和特性。
首先肯定是从百度等搜索引擎上搜索数据库软件,了解其基本概念和用处。
之后了解到有oracle,sybase,microsoftsql等几款著名的数据库软件,接着分别有针对性的对这三款软件进行进一步搜索,进行纵向深入和横向对比,了解三者的共性和各自的特性。
1.2.实践调研
通过理论调研,我已经了解了数据库软件的大体情况,但如果要我做出决策,具体要用哪一款软件来编写水文数据库软件,显然是不能仅仅通过理论上的一些东西,由我这样一个外行人做出一些主观的臆测来判断具体用哪个软件来编写水文数据库然间。
而且理论调研的局限在于并不能告诉我水文数据库的具体要求是
什么,只能由我自己通过各款软件详细情况做出判断。
所以以理论必须结合实践,才能帮助我做出更好地选择。
所谓实践调研,就是对目前各省水文数据库的建设情况做调研,研究不同省在建设水文数据库的时候,选择了哪些数据库软件,这必然是经过当时技术人员的仔细思考所做出的决定,站在巨人的肩膀上,这样才能看的更远。
2调研结果及结论
通过两种方法的调研,我得到了海量的信息,对此稍作总结,概括性地得出结果及最终结论。
2.1通过理论调研,得出oracle、sybase、microsoftsql三款数据库软件的各自特性。
总结如表1:
表1不同数据库特点对比表
3.2通过已有资料,进行实践调研,发现湖北、河北等多数省大都应用oracle的数据库软件。
4.结论
通过理论调研和实践调研两方面的调研,得出结论,使用oracle的数据库软件更佳。
篇三:
数据库需求分析报告
高校学生学籍管理
1.概述编写说明:
本章描述本软件开发的背景,系统目标,用户的业务情况,以便于需求理解。
1·1背景
在学籍管理中,需要从大量的日常教学活动中提取相关信息,以反映教学情况。
传统的手工操作方式,易发生数据丢失,统计错误,劳动强度高,且速度慢。
使用计算机可以高速,快捷地完成以上工作。
在计算机联网后,数据在网上传递,可以实现数据共享,避免重复劳动,规范教学管理行为,从而提高了管理效率和水平。
1·2系统目标
学籍管理信息系统以计算机为工具,通过对教务管理所需的信息管理,把管理人员从繁琐的数据计算处理中解脱出来,使其有更多的精力从事教务管理政策的研究实施,教学计划的制定执行和教学质量的监督检查,从而全面提高教学质量。
1·3业务模式
本系统是运行在win98、win2000、windowsnt等操作系统环境下的多台计算机构成的局域网,主要业务流程如下:
·按某学生某学期,学年考试及补考成绩,自动生成该学生是否升留降级,退学。
·按某学生在校期间累计补考科目门数和成绩自动生成该学生是否结业,毕业,授位。
·按某学生因非成绩原因所引起的学籍变更作自动处理。
·按每学期各年级班学生考试成绩自动生成补考名单,科目。
·按每学期各年级学生考试成绩自动生成某课程统计分析表。
·按同一年级学习成绩进行同一课程不同班级间成绩比较。
2用户需求
编写说明:
此系统专门为高校学籍管理所设置。
本节主要描述用户需求的使用范围,功能要求信息采集与各部门的使用权限
2·1使用范围
按成都信息工程学院全日制学生学籍管理等相关文件完成本科和专科学生学籍状况的系统管理(本科生用学年学分制,专科生用学年制)。
系统中保留五个年级学生的信息,学生毕业一年后信息转储,但随时可以查询,输出。
2·2功能要求
·学生档案管理:
学生的一般情况,及奖励,处分情况;·学生成绩管理:
学习成绩,补考成绩;
·学籍处理:
学生留降级处理,休复学处理,退学处理;
·日常教务管理:
日常报表,如通知书,补考通知书等,学生学习成绩的各种分类统
计;
·毕业生学籍处理:
结业处理,毕业处理,授位处理,学籍卡片等。
2·3信息采集与各部门的使用权限
每学期考试完毕由各系录入成绩,然后由教务科收集。
为了信息的安全和数据的权威性,对于网上信息的使用权限和责任规定如下:
2·4用户平台要求
系统主要使用于高校的局域网,win98、win2000、winnt等环境下,java,vc,vb连接数据库,本系统需要dbms放学生学籍数据库。
可进行查询,修改、处理等。
3业务逻辑和数据流图
3·1数据流图
0层数据流图
1层数据流图
数据文件
2层数据流图
4系统特点
4·1网络环境下的多用户系统
在上述已有的硬件环境下,信息由各用户在规定的权限下在各自的工作站上录入,信息上网后各用户可查询,调用,达到信息共享。
4·2数据的完整性,准确性
a.录入数据采用表格方式,限制录入数据类型及取值范围以保证数据的完整性及准确
性。
b.统具有部分反悔修改功能,系统备有的修改功能均可反悔
4·3数据完成的时间性,
如成绩的录入,仅当师资科录入教学进程,教务科分发教师教学任务安排之后,各系方可录入成绩。
4·4数据安全性
本系统采用二级安全保障
第一级:
依赖于网络本身对用户使用权限的规定。
第二级:
在程序模块中通过使用密码控制功能对用户使用权限加以限制。
如表1,2。
4·5成绩自动统计分析及学籍的自动处理
本系统按学籍管理条例设计了若干个软件处理模块:
1、可按某学生某学期,学年考试及补考成绩,自动生成该学生是否升留降级,退学。
2、可按某学生在校期间累计补考科目门数和成绩自动生成该学生是否结业,毕业,授位。
3、可按某学生因非成绩原因所引起的学籍变更作自动处理。
4、可按每学期各年级班学生考试成绩自动生成补考名单,科目。
5、可按每学期各年级学生考试成绩自动生成某课程统计分析表。
6、可按同一年级学习成绩进行同一课程不同班级间成绩比较。
5数据调查及分析
5·1原始数据
编写说明:
本节描述原始数据调查的结果,列出数据清单。
原始数据的描述:
数据名称:
高校学生学籍管理信息系统
简述:
系统中保留五个年级学生的信息,学生毕业一年后信息转储,但随时可以
查询,输出。
来源:
每学期考试完毕由各系录入成绩,然后由教务科收集去处:
学生,老师
组成:
存储信息用库有学生资料表,成绩表,授课表,补考成绩表,奖励处分表
等,用于存放学生在校期间的有关信息。
5·2数据字典
5·2·1数据条目
系统管理要求=[学生资料表|成绩表|授课表|补考成绩表|奖励处分表|毕业生表|日常报表]
学生资料表=学号+姓名+性别+生日+家庭地址+邮编成绩表=学号+科目+成绩毕业生表=学号+姓名+班级
奖励处分表=学号+姓名+系别+奖励(处分)学生情况=学生成绩+学生资料
统计要求={学生情况}
数据流名:
查询要求
简述:
系统处理的一个命令别名:
无
组成:
[学生情况|统计要求]数据量:
2000次/天
峰值:
每天上午9:
00—10:
00有1000次
注释:
至每学年10月下旬评奖学金还将增加3至4倍
5·2·2数据分析
编写说明:
本节主要对原始数据库表中的个别属性进行了简要的描述。
数据项描述
数据项编号:
01数据项名称:
学号
简述:
学生表的关键字的描述
类型:
长整型长度:
10位
取值/定义:
前四位入学年份,接着三位系别专业方向代号,最后是按姓氏排列
的序号
数据项编号:
02数据项名称:
成绩
简述:
成绩表的有关分数的描述类型:
单精度长度:
7位
精度:
小数点后保留两位
取值/定义:
小数点前最多三位数字学生考试成绩、平时成绩、总评成绩
数据项编号:
03数据项名称:
奖励
简述:
奖励表的有关奖励的描述类型:
文本/字符类型长度:
多位
取值/定义:
学生的奖励情况有获得奖励或是受到处分
5·2·3小说明篇四:
数据库报告
《教学管理系统》
数据库设计报告
姓名:
学号:
专业班级:
指导教师:
安剑奇时
间:
目录
第1章绪论...................................................................................3
1.1.数据库技术的国内外发展与应用现状.............................3
1.2.数据库应用系统开发的意义............................................6
1.3.数据库应用系统开发方法概述.........................................6
第2章问题描述.........................................................................7
2.1背景......................................................................................7
2.2数据需求..............................................................................7
2.3事务需求..............................................................................8
2.4安全性...............................................................................8
2.5关系模式..............................................................................8
第3章图标设计........................................................................9
3.1e-r图..................................................................................9
3.2数据表格.............................................................................10
第4章物理实现........................................................................12
4.1数据库建立.......................................................................12
4.2表的建立..............................................................................12
4.3数据录入..............................................................................12
4.4数据存放位置......................................................................12
4.5系统配置..............................................................................12
第5章功能实现........................................................................13
5.1主界面................................................................................13
5.2单表查询...........................................................................14
5.3连接查询............................................................................16
第6章结束语.............................................................................18
第1章绪论
1.1数据库技术的国内外发展与应用现状
面向21世纪的现代社会是一个信息化的社会,信息化包括三项技术:
计算机技术、通信技术和控制技术,而计算机技术是信息化的主要处理工具。
信息的载体是各式各样的数据,包括文字、数字、图形、图像、声音、视频等。
基于计算机的数据库技术能够有效地存储和组织大量的数据,而基于数据库技术的计算机系统就被称为数据库系统。
作为信息系统核心和基础的数据库技术得到越来越广泛的应用,它不仅已成为管理信息系统(mis)、办公自动化系统(oas)、医院信息系统(his)、计算机辅助设计与计算机辅助制造(cad/cam)的核心,而且已经和通信技术紧密地结合起来,成为电子商务、电子政务及其他各种现代信息处理系统的核心。
对于一个国家来说,数据库的建设规模、数据库信息量的大小和使用频度已成为衡量这个国家信息化程度的重要标志。
本章介绍数据管理技术的发展、数据库最基本的概念和术语、关系数据库的基本理论及数据库系统软件visualfoxpro6.0的一些基本知识。
数据库技术是在20世纪60年代兴起的一种数据处理技术。
数据库在英语中称为database。
拆开来看,data的中文意思是数据,base的中文意思是基地,所以通俗意义上来讲,数据库就可理解为存储数据的基地。
在了解数据库系统基本概念之前,先从数据管理技术的产生和发展过程来认识数据是如何进行处理的。
从数据处理的演变过程,就不难看出数据库技术的历史地位和发展前景。
自从计算机应用于数据处理领域以来,就面临着如何管理大量复杂数据的问题。
时至今日,随着计算机软硬件技术与数据管理手段的不断发展,数据处理过程发生了划时代的变革,数据管理技术已经大致经历了三个发展阶段。
1.人工管理阶段
人工管理阶段出现在20世纪50年代中期以前,当时计算机主要用于科学与工程计算。
由于当时没有必要的软件、硬件环境的支持,用户只能直接在裸机上操作,数据处理采用批处理方式。
在这一管理方式下,用户的应用程序与数据相互结合不可分割,当数据有所变动时程序则随之改变,程序与数据之间不具有独立性;另外,各程序之间的数
据不能相互传递,缺少共享性,各应用程序之间存在大量的重复数据,我们称为数据冗余。
因而,这种管理方式既不灵活,也不安全,编程效率很低。
在人工管理阶段,应用程序与数据之间是一一对应的关系,如图1.1所示。
?
?
图1.1人工管理阶段应用程序与数据之间的对应关系
2.文件管理阶段
文件管理阶段出现在20世纪50年代后期至20世纪60年代后期,由于大容量存储设备逐渐被投入使用,操作系统也已经诞生,而且操作系统中有了专门的数据管理软件,一般称为文件管理系统,即把有关的数据组织成一种文件,这种数据文件可以脱离应用程序而独立存在,由一个专门的文件系统实施统一管理。
文件管理系统是一个独立的系统软件,它是应用程序与数据文件之间的一个接口,数据处理不仅采用批处理方式,而且能够联机实时处理。
在这一管理方式下,应用程序通过文件管
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库 调查报告