数据采集处理项目技术方案.docx
- 文档编号:18371232
- 上传时间:2023-08-16
- 格式:DOCX
- 页数:165
- 大小:526.60KB
数据采集处理项目技术方案.docx
《数据采集处理项目技术方案.docx》由会员分享,可在线阅读,更多相关《数据采集处理项目技术方案.docx(165页珍藏版)》请在冰点文库上搜索。
数据采集处理项目技术方案
xxx大数据库中心数据库投资商和企业数据收集办理项目
项目编号:
I5300000000617001206
技术方案
xxx有限企业二○一七年六月
精选文库
1
序言.................................................................................................................................................................
3
1.1
项目背景...........................................................................................................................................
3
1.2
项目目标...........................................................................................................................................
3
1.3
建设原则...........................................................................................................................................
3
1.4
参照规范...........................................................................................................................................
4
1.5
名词讲解...........................................................................................................................................
5
2
云数据收集中心.............................................................................................................................................
7
2.1
需求归纳...........................................................................................................................................
7
2.2
整体设计...........................................................................................................................................
7
2.3
中心技术及功能.............................................................................................................................
10
3
大数据计算平台...........................................................................................................................................
34
3.1
需求归纳.......................................................................................................................................
34
3.2
整体设计.......................................................................................................................................
34
3.3
数据模型设计...............................................................................................................................
35
4
数据运营.....................................................................................................................................................
38
4.1
数据挖掘解析................................................................................................................................
38
4.2
数据解析办理的主要工作............................................................................................................
38
4.3
数据解析团队组织和管理............................................................................................................
39
5
安全设计
.......................................................................................................................................................
42
6
风险解析
.......................................................................................................................................................
46
7
部署方案
.......................................................................................................................................................
47
8
推行计划
.......................................................................................................................................................
48
9
技术规格偏离表...........................................................................................................................................
49
10售后服务承诺.............................................................................................................................................
52
11关于运转保护的承诺.................................................................................................................................
55
12保密措施及承诺.........................................................................................................................................
56
13培训计划.....................................................................................................................................................
58
--2
精选文库
1序言
1.1项目背景
XXX大数据中心建设出发点考虑从投资者角度涵盖招商全流程,尽可能为投资者解决项目推行过程中的困难和问题,便于招商部门正确掌握全省招商数据,达到全省招商项目数据共享,形成全省招商工作“一盘棋、一张网、一体化”格局。
大数据中心将充
发散挥大数据优势,加强对企业投资项目、投资轨迹解析,评估出其到XX投资的可行
性,为招商过程留下印迹、找到规律、明辨方向、供应“粮食”、提升效率,实现数据寻商、数据引商、数据助商,实现数据资源实时共享、集中管理、随时盘问,实现项目可统计、可看守、可协调、可管理、可配对、可追踪、可核查。
本次数据运营服务主若是为大数据平台拟定数据运营规范及管理方法,同时为“企
业数据库”供应数据收集、储藏与解析服务,并依照运营规范要求连续睁开数据运营服务。
1.2项目目标
拟定招商大数据运营规范及管理方法。
拟定招商大数据相关元数据标准,达成相关数据的收集、整理与储藏。
依照业务需求,研发招商大数据招商业务解析模型,并投入应用。
依照运营规范及管理方法的要求连续睁开数据运营工作。
1.3建设原则
基于本项目的建设要求,本项目将依照以下建设原则:
--3
精选文库
前瞻性和高标准整个项目要依照企业对大数据应用的需要的高要求和高标准建设,参照行业标杆应用,成立满足需求,面向未来的目标,整个项目拥有必然前瞻性。
经济性和合用性整个项目以现有需求为基础,充分考虑未来发展的需要来确定系统的架构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设计应充分考虑对已有投资的保护,对已成立的数据中心、基础平台、应用软件应供应齐全的整合方案。
先进性和成熟性为了保证项目拥有较长的生命周期,应充分考虑到管理创新、技术发展需要,依照先进的建设理念,选择先进的技术架构和成熟技术,满足业务需求。
高性能和安全性规范地进行系统建设和开发,供应合理且经济有效的应急方案,保证系统的牢固,向各种服务对象供应可靠的服务。
拥有安全性,在系统遇到攻击或崩溃时能迅速恢复,保证重要数据的机密性和完满性。
1.4参照规范
GB/T20269-2006信息安全技术—信息系统安全管理要求
GB/T20984-2007信息安全技术—信息安全风险评估规范
GB/T22239-2008信息安全技术—信息系统安全等级保护基本要求
GB/T22240-2008信息安全技术—信息系统安全等级保护定级指南
GA/T388-2002B计算机信息系统安全等级保护管理要求
--4
精选文库
GB/T8567-1988计算机软件产品开发文件编制指
GB/T11457-1995软件工程术语
GB/T11457-2006信息技术软件工程术语
GB/T16260.1-2006软件工程产质量量第1部分:
质量模型
GB/T16260.2-2006软件工程产质量量第2部分:
外面胸襟
GB/T16260.3-2006软件工程产质量量第3部分:
内部胸襟
GB/T16260.4-2006软件工程产质量量第4部分:
使用质量的胸襟
GB/T14394-2008计算机软件可靠性和可保护性管理
GB/T17544-1998信息技术软件包质量要求和测试
1.5名词讲解
S2DFS:
简单储藏分布式文件系统(SimpleStorageDistributedFileSystem)
D2B:
分布式数据库(DistributedDatabase)
JSS:
作业调换服务(JobSchedulerService)
DCS:
数据计算服务(DataComputerService)
--5
精选文库
MPS:
信息办理服务(MessageProcessService)
SDS:
流数据办理服务(StreamDataService)
DMQ:
分布式信息队列(DistributedMessageQueue)
JGS:
作业生成服务(JobGenerationService)
ACS:
自动清理服务进度(AutomaticCleaningServices)
HTTP:
超文本传输协议(HyperTextTransferProtocol)
SMB:
服务器信息块协议(ServerMessageBlock)
--6
精选文库
2云数据收集中心
2.1需求归纳
依照规划,云数据收集中心的成立最少满足1至2年内的数据储藏和计算规模,
需要满足:
数据收集范围包括但不限于世界500强、全国500强、行业20强企业相关数据。
总数据容量最少达到30T。
2.2整体设计
整个云数据收集中心分为三部分:
硬件资源层、软件平台层、软件应用层。
硬件资源层主要指实体硬件设备,包括用来储藏数据的光纤阵列柜和储藏服务器,用来作统计、解析以及搜寻用的计算服务器,用来部署分布式信息(DMQ)/WEB/APP软件的WEB及信息服务器,用来部署用PostgreSQL关系数据库软件的应用数据库服务器,用来部署作业调换服务进度(JSS)的作业调换服务器。
作为数据通讯誉的全千兆三层交换机等等。
其中光纤阵列柜主要用来储藏统计分析后的粗颗粒度数据。
储藏服务器用来部署
分布式文件系统和分布式数据库,同时储藏非结构化和结构化(台标图片,电商图片等等)和结构化数据(行为数据,索引数据,log数据,清理后的细颗粒度数据等等)。
计算服务器主要用来达成数据的清理、统计、搜寻等计算任务。
为了节约成本和减少通讯代价,建
议储藏服务器和计算服务器合二为一,因此该服务器同时拥有计算和储藏数据的功能,前
期也能够考虑把作业调换服务进度(JSS)进度部署在储藏/计算服务器上。
由于云数据
收集中心需要面对多种宽带用户(电信、搬动、联通),因此,数据中心的对外的网络需要直连上电信、搬动、联通三家企业的网络,保证以上三家企业间的通讯性能高速和可靠。
--7
精选文库
软件平台层是云数据收集中心的中心支撑层,也是我们此次方案设计和推行的主体
部分,在中心技术章节会对“分布式文件系统(S2DFS)”、“分布式数据库(D2B)”、“分
布式信息服务(DMQ)”“作业调换服务进度(JSS)、数据计算服务进度(DCS)”主要
部分加以详细的描述。
软件平台层的全部服务器都一致部署的64位操作系统CentOS6.5(也能够选择
RHEL6.5x64);其中心软件也许进度有:
分布式文件系统(S2DFS)、分布式数据库
(D2B)、作业调换服务进度(JSS)、数据计算服务进度(DCS)、作业生成服务进度(JGS)、信息处理服务进度(MPS)、流数据办理进度(SDS)等等。
WEB及应用服务器软件Apache&Tomcat,信息队列软件分布式信息(DMQ)。
还要实现整个云数据收集中心的资源管理及监控管理系统。
软件应用层是云数据收集中心的功能实现及UI表达层,功能实现需要基于软件
平台层的支撑,后期设计和推行的主体。
该层的主要功能应用有:
数据收集应用、数据统计应用、云数据收集中心的资源监控及调换。
经过公共数据网(电信、联通、搬动)和HTTP协议,把收集的海量文本、图片数据以及用户行为数据储藏在云数据收集中心里,以供后期解析计算用。
--8
精选文库
云数据收集中心整体架构图
云数据收集中心网络结构图
--9
精选文库
2.3中心技术及功能
2.3.1分布式文件储藏技术
(1)传统储藏技术面对的问题:
成立成本高:
大容量及高网络带宽的高端储藏系统架构昂贵。
文件系统功能和性能差强者意:
难以实现全局命名空间的文件共享、文件系统难以扩展,简单形成瓶颈。
扩展性困难:
技术存在瓶颈(Scale-up架构决定的)、扩展成本无法控制。
可用性问题:
潜藏的单点故障,数据恢复困难,代价高。
应用目标差别:
主要面对运营商、金融行业的OLTP应用、很少针对
海量的流数据,也许非结构化数据进行设计和优化。
异构设备繁琐:
不同样时期、不同样企业、不同样操作系统的异构设备纷复杂
杂,无法整合,资源利用率极低。
分布式文件系统主要为解决以上问题而出现的一种新式大规模数据储藏技术架
构。
主要为非结构化数据(视频/文件/文档/图像/音频等非结构化数据)提供海量的储藏平台,以集群的方式供应线性横向扩展能力。
分布式文件系统是一种成立于通用x86部件之上的高可用、高可靠、高可扩展的
新式分布式文件系统。
应用分布式文件系统,用户能够采用廉价可靠的通用服务器、
--10
精选文库
SATA/SAS硬盘以及以太网络来成立媲美企业级储藏产品的储藏系统。
(2)分布式文件系统应付的数据特点和接见特点:
数据量巨大,数百TB或PB级,增加迅速;
种类多样化,包括图像、文本、语音、视频等文件数据;
准时间有序生成,数据均带有时间标志;
前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记录
也许上GB量数据;
更新操作很少:
追加方式写入,一旦写入,几乎没有数据更正,查询
涉及大量的磁盘读操作,盘问办理产生大量的临时结果,不同样类型的
数据存在结合解析盘问;
分布式文件系统的基本源理是采用集群方式来整合物理上独立的多个储藏资源,
以软件方式供应单一的名字空间;采用多副本的方式保证数据的高可用性,任意单一节
点无效均不会以致数据扔掉和数据服务的正常运转;同时,分布式文件系统经过优秀设
计的系统结构和数据分布策略,可保证系统性能的高可扩展性,并支持储藏容量/性能的
在线扩展。
对照较于DAS(直连储藏)、SAN(储藏地域网络)和NAS(网络储藏),应用分布式文件系统成立的网络储藏系统更像是一个NAS提,供近似于传统NAS的文件级接见接口(SAN和DAS都是块设备级其他接见接口)。
(3)分布式文件系统与传统NAS/SAN设备的比较:
--11
精选文库
比较项
高端NAS
FC-SAN
分布式文件系统
性能
一般双端口,性能受机头
一般双端口,性能受
性能随节点数的增加成线
影响,难以扩展,出口带
机头影响,难以扩展,
性增加
宽是瓶颈
IOPS较好
扩展能力
性能及容量无法扩展,或
能较好扩展,但成本
性能及容量按需扩展,动
者有限扩展
高昂
态均衡
可用性
RAID方式保护,双机保
RAID方式保护,双机
基于灵便的多副本体系,
护,停机RAIDRebuid,耗
保护,停机
自动检测,自动故障恢复,
时
RAIDRebuid,耗时
无需停机
数据管理
企业级功能需要单独购买
企业级功能需要单
内嵌多种企业级应用:
快
独
照、镜像、回收站
购买(还需要单独的
文件系统,100多万一
套)
成本
专有的硬件平台,软件拥
专有的硬件平台,软
有成本高,扩展成本高
件拥有成本高,扩展
成本高
可保护性
特地的技术支持服务,需
结构异常复杂,需要
要培训
大量培训,厂商服务
昂贵
开发通用的硬件平台,一体化的软件,成本低,扩展成本低
内嵌多种自动化的故障检测和恢复功能,国内开发,技术支持迅速
用户使用分布式文件系统仿佛使用当地文件系统。
所不同样的是,传统NAS平常
以单一节点的方式实现,容量和性能的扩展能力有限,易于成为性能瓶颈和单一故障点。
而分布式文件系统则有多个节点会集地供应服务,由于其结构特点,分布式文件系统的
性能和容量均可在线线性扩展,而且系统内不存在单一故障点。
比较参看下面两幅表示
图:
--12
精选文库
传统储藏架构图
分布式文件系统架构图
--13
精选文库
分布式文件系统的设计应用特别适合海量非结构化数据储藏,大量客户端并发的I/O
密集型应用。
当前,分布式文件系统已经被应用于政
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 采集 处理 项目 技术 方案