大数据云计算系统FHgroup.docx
- 文档编号:18605523
- 上传时间:2023-08-20
- 格式:DOCX
- 页数:9
- 大小:574.44KB
大数据云计算系统FHgroup.docx
《大数据云计算系统FHgroup.docx》由会员分享,可在线阅读,更多相关《大数据云计算系统FHgroup.docx(9页珍藏版)》请在冰点文库上搜索。
大数据云计算系统FHgroup
上海电机学院
分布式大数据&云计算开源系统
指导教师:
连志刚
制作团队:
FHgroup
成员:
俞佳星、张诗婕、李琼、王淋
目录
1.项目概述1
1.1项目背景及意义1
1.2项目目标1
1.3运行环境1
1.4项目团队1
2.相似软件剖析3
3.系统总体设计1
2.1系统概要1
2.2系统总结构1
2.3详细模块功能2
4.技术路线及实现方案4
3.1分布式计算(DistributedComputation)4
3.2跨粒度计算(In-DatabaseComputing)4
3.3并行计算(MPPComputing)4
3.4列存储(Column-Based)4
3.5内存计算技术4
3.6无硬盘存储(noneharddisk)5
3.7P2P对等网络(PeertoPeer)5
5.项目创新点6
4.1理念创新6
4.2技术创新6
6.项目总结7
1.项目概述
1.1项目背景及意义
随着互联网的高速发展,海量的数据涌现在各个企业面前,这些庞大的数据之中蕴藏的无穷无尽的宝藏。
用现在互联网的话说:
数据就是财富。
然而处理这些海量的数据并不是一件容易的事情。
很多中小企业并无法处理,他们不能有效的利用这些充满价值的数据,只能够简单的堆砌在一起。
我们的系统将改变这一点。
那些无法处理数据的企业将数据上传到我们的系统,系统帮他们分析。
他们将得到他们想要的处理结果、预测分析等等。
同时系统开源,吸收广大爱好者的智慧,不停的完善这个系统。
1.2项目目标
我们的分布式大数据&云计算开源系统,将大数据和云计算结合起来,并利用分布式计算,以近乎0的成本换取最大的效益,同时系统开源,吸收广大爱好者的智慧,不停的完善这个系统。
1.3运行环境
系统使用的环境是:
软件环境:
WindowsNT内核操作系统/Linux内核系统(推荐)
硬件环境:
pentium4处理器以上,至少1G内存。
1.4项目团队
项目负责人
俞佳星,男,主要在这个项目方案中的起到组织、运作、和管理作用。
曾参加过蓝桥杯软件开发大赛,有较好的技术。
作为班级的班长,有一定的管理能力。
需求分析师
李琼,女,负责需求工作,要掌握企业的最新最全的需求。
她多次获得过校博学奖学金,学习能力比较强。
作为班级的生活委员,有较好的团队合作和沟通能力。
是需求分析师的不二人选。
系统架构师
王淋,女,负责分析和确定系统的架构。
熟悉java、JavaEE编程,有较强的编程技术。
多次获得学校博学奖学金,有很强的学习能力。
市场负责人
张诗婕,女,负责市场推广。
主要进行市场前景分析预测。
多次获得学校博学奖学金,有一定的学习能力。
同时,善于聆听,有很好的团队合作能力,善于与人沟通,是个不可或缺的组员。
团队组织环节
项目负责人
俞佳星
需求分析师
李琼
系统架构师
王淋
市场负责人
张诗婕
方案内容
管理项目的组织、运作。
及时掌握企业的第需求。
技术方案水平、可行性和先进性
商业可行性及市场前景分析预测
2.相似软件剖析
目前国内的几家IT巨头都在尝试涉足大数据领域。
本文以XX大数据引擎为例子简单剖析一下当前大数据及云计算的技术。
XX大数据的两个典型应用是面向用户的服务和搜索引擎,XX大数据的主要特点是:
第一,数据处理技术比面向用户服务的技术所占比重更大;第二,数据规模比以前大很多;第三,通过快速迭代进行创新。
随着对大数据系统更深层次的理解,林仕鼎认为大数据需要新的硬件体系结构,整个数据中心是一台计算机,软硬件协同创新。
XX提供了很多大数据接口。
他提供了大数据营销、大数据预测、大数据统计还有一些大数据工具。
同时他开提供了XX开放云。
虽然XX大数据引擎提供不少很接地气的接口,但是你不可能获得XX的数据,你所能获得只是XX处理好的结果。
你不知道这些数据是如何处理的;你没法精确的获取你想要的人群的数据;你甚至不知道这些数据是从哪里来的……
而且XX大数据引擎不是一个开源系统,我们在使用的时候需要支付一定的费用。
对于其中不尽如人意的地方,我们不能直接对其修改。
对于小型企业、个人、或者研究着来说,他们往往更倾向于开源系统。
而目前在大数据和云计算领域,开源的系统几乎是空白。
3.系统总体设计
2.1系统概要
图2-1系统结构图
我们的分布式大数据&云计算开源系统利用广大企业、个人的空闲服务器资源,已几乎0的成本实现大数据挖掘、大数据预,以及提供云计算服务。
并且系统开源,任何人都可以使用,没有任何限制。
开源系统的最大好处就是数据可以共享,任何人都可以获取你的数据。
但是,共享的同时会给人带来个人隐私受到侵犯的怀疑。
因此我们的系统要在尽最大可能实现数据共享的同时,保护个人隐私。
2.2系统总结构
图2-2系统总体架构图
2.3详细模块功能
2.3.1大数据统计模块
基于NoSQL的分布式数据库,对采集到的数据进行数据统计。
将采集到的数据对已有的数据模型进行拟合,得出当前大致的数据态势。
2.3.2大数据挖掘模块
在的大数据统计的基础之上,对不同的数据列相互拟合,找出特定的数据列和数据列之间的关系。
2.3.3大数据预测模块
在之前的大数据统计的基础之上,将近期数据和历史数据与已有数据模型进行拟合,得出一个预测值。
同时根据大数据挖掘的结果,通过数据列之间的关系,得出另一个预测值。
将两个预测值取平均,得出更加精确的预测结果。
2.3.4无硬盘存储模块
将数据存储在内存中,而不存在硬盘中。
当某台志愿者提供的计算机关闭时,系统将内存中的数据发送的网络其他节点的内存中。
内存的访问速度是硬盘的上百倍甚至上千倍。
我们省掉了从硬盘读写数据的时间,这将极大的提升系统的运行速度。
2.3.6分布式资源管理模块
发现并且连接志愿者的计算机,检测其闲置的资源,当闲置的资源达到我们要求的下限时,分配内存和CPU资源给当前的任务。
2.3.7分布式任务管理块
管理执行当前任务的计算机群的执行状态、通信、等。
4.技术路线及实现方案
3.1分布式计算(DistributedComputation)
本系统应用分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。
这样可以节约整体计算时间,大大提高计算效率。
我们利用世界上成千上万台志愿者的计算机的空闲资源进行计算,已近乎为0的成本为全球服务。
3.2跨粒度计算(In-DatabaseComputing)
得益于跨粒度计算技术,本系统将找寻出最优化的计算方案,继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算,我们称之为库内计算(In-Database)。
这一技术大大减少了数据移动,降低了通讯负担,保证了高性能数据分析。
3.3并行计算(MPPComputing)
本系统是基于MPP架构,她能够把计算分布到多个计算节点,再在指定节点将计算结果汇总输出。
本系统能够充分利用各种计算和存储资源,不管是服务器还是普通的PC,她对网络条件也没有严苛的要求。
作为横向扩展的大数据平台,本系统能够充分发挥各个节点的计算能力,轻松实现针对TB/PB级数据分析的秒级响应。
3.4列存储(Column-Based)
本系统是列存储的。
基于列存储的数据集市,不读取无关数据,能降低读写开销,同时提高I/O的效率,从而大大提高查询性能。
另外,列存储能够更好地压缩数据,一般压缩比在5-10倍之间,这样一来,数据占有空间降低到传统存储的1/5到1/10。
良好的数据压缩技术,节省了内存的开销,却大大了提升计算性能。
3.5内存计算技术
得益于列存储技术和并行计算技术,本系统能够大大压缩数据,并同时利用多个节点的计算能力和内存容量。
一般地,内存访问速度比磁盘访问速度要快几百倍甚至上千倍。
通过内存计算,CPU直接从内存而非磁盘上读取数据并对数据进行计算。
内存计算是对传统数据处理方式的一种加速,是实现大数据分析的关键应用技术。
3.6无硬盘存储(noneharddisk)
得益于分布式计算、并行计算以及内存计算,我们将使用全世界志愿者计算机的内存来存储数据,而不存在硬盘中。
内存的访问速度是硬盘的上百倍甚至上千倍。
我们省掉了从硬盘读写数据的时间,这将极大的提升系统的运行速度。
3.7P2P对等网络(PeertoPeer)
本系统应用了P2P技术。
在P2P网络环境中,成千上万台彼此连接的计算机都处于对等的地位,整个网络不依赖专用的集中服务器。
网络中的每一台计算机既能充当网络服务的请求者,又对其它计算机的请求作出响应,提供资源和服务。
5.项目创新点
4.1理念创新
我们所提供的大数据服务作为一个开源项目,不收取任何费用,极其强大的数据共享性、开放性是前所未有的。
让无法处理数据的中小企业能够从自己的数据中精确预测未来的趋势、行业的走向,同时也能让没有数据的用户获得很大的参考。
而整个系统从开发到之后上线运维,都将依靠全球的开源爱好者、志愿者来玩完成,以近乎为0的成本来满足每个用户的需求。
4.2技术创新
4.4.1分布式无人值守系统
整个系统将分散在全球各地的志愿者的机器上运行,类似于比特币的模式,或者日本驻波大学的VPNgate的运行模式,系统的运行为全自动无人值守,尽可能的把人力资源的费用降到最低。
4.4.2较高的响应速度
在大数据处理方面,需要较高的处理速度。
因为数据量非常大,我们需要大量的CPU和内存资源。
通过我们的并行计算、列存储、内存计算等技术来从底层、最核心的地方加快响应速度。
6.项目总结
本项目实施后,将是更加划时代的,可以改变整个IT行业的巨大飞越。
他使得大数据、云计算不再是高高在上的、难以企及的、只限于那些行业巨头的玩具。
他将真正把这些前沿技术带劲寻常百姓家里。
可以肯定的说,这套系统发展潜力巨大,有着较好的可行性和科学性。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 计算 系统 FHgroup