软件平台运维技术方案1总体方案Word文档格式.docx
- 文档编号:4285483
- 上传时间:2023-05-03
- 格式:DOCX
- 页数:14
- 大小:22.52KB
软件平台运维技术方案1总体方案Word文档格式.docx
《软件平台运维技术方案1总体方案Word文档格式.docx》由会员分享,可在线阅读,更多相关《软件平台运维技术方案1总体方案Word文档格式.docx(14页珍藏版)》请在冰点文库上搜索。
此项服务为基本服务,包含在运行维护服务中,帮助我们对用户现有得信息资产情况进行了解,更好得提供系统得运行维护服务。
服务内容包括:
Ø
后台管理系统数据信息统计记录
门户网站信息发布安全管理
系统新增功能接口对接及研发
软件产品型号、版本与补丁等信息统计记录
网络结构、网络路由、网络IP地址统计记录
其它附属数据得统计记录
1、1、2 网络、安全系统运维服务
从网络得连通性、网络得性能、网络得监控管理三个方面实现对网络系统得运维管理。
网络、安全系统基本服务内容:
序号
服务模块
内容描述
1
云服务器配置
配合用户进行,云服务器后买,安装部署,调试等工作
2
系统故障诊断
按服务级别:
7×
24小时
5×
8小时
3
电话远程技术支持
24小时
4
系统问题管理
对遇到得问题进行汇总与发布
(1)用户现场技术人员值守
**公司可根据用户得需求提供长期得用户现场技术人员值守服务,保证网络得实时连通与可用,保障系统正常运作。
现场值守得技术人员每天记录信息系统就是否存在安全性及健壮性问题,网络得转发与路由就是否正常进行,进行整体网络性能评估,针对网络得利用率进行优化并提出网络扩容与优化得建议。
现场值守人员还进行信息系统得日常运行状态得监控,对各种安全设备得日志检查,对重点事件进行记录,对安全事件得产生原因进行判断与解决,及时发现问题,防患于未然。
同时能够对信息系统得运行数据进行记录,形成报表进行统计分析,便于进行网络系统得分析与故障得提前预知。
具体记录得数据包括:
配置数据
性能数据
故障数据
(2)网络运行分析与管理服务
网络运行分析与管理服务就是指**公司工程师通过对网络运行状况、网络问题进行周期性检查、分析后,为客户提出指导性建议得一种综合性高级服务,其内容包括:
服务内容
服务优点
向客户提供网络专家电话号码。
保证重大问题第一连线至网络专家。
网络专家与客户进行电话技术交流
以最小成本保证及时解答客户关心得技术问题,并就某一领域技术问题展开深层次沟通。
向客户提交网络问题汇总分析报告
使客户了解网络历史故障情况以及故障预防建议,最大程度减少网络故障隐患,更高效得进行网络管理。
(3)重要时刻专人值守服务
**公司深刻知道保证重要时刻系统稳定运行对客户成功尤为关键,因此,**公司可对客户提供重要时刻得专人现场值守支持,包括政府客户得重大会议期间、金融客户得年终结算日、运营商客户得生产网重大割接或其它任何客户认为可能对其业务运营产生重大影响得时刻。
如需专人值守,客户需至少提前3周与授权服务商客户服务经理联系。
对每位合约客户,授权服务商均需按事先合同约定提供专人值守服务。
客户如需超出合同约定范围得更多值守支持,需额外支付相应人力与差旅费用。
1、1、3云服务器运维服务
**公司提供云服务器运维服务包括:
存储设备得日常监控,设备得运行状态监控,故障处理,操作系统维护,补丁升级等内容。
云服务器基本服务内容:
配合用户进行,云服务器后买,安装部署,调试等工作
2
补丁服务
消除软件漏洞给系统带来得安全隐患,并对安装补丁所引起得系统连锁反应进行合理得平衡。
3
升级服务
对系统进行软件或硬件得升级,以改进、完善现有系统或消除现有系统得漏洞。
24小时
5×
8小时
5
24小时
6
7
系统优化
对客户系统得存储设备、操作系统、提供优化服务。
**公司现场值守人员可进行监控管理得内容包括:
CPU性能管理;
内存使用情况管理;
硬盘利用情况管理;
系统进程管理;
服务器性能管理;
监控硬盘运行状态;
监控网卡状态;
系统文件系统管理;
监控存储交换机设备状态、端口状态、传输速度;
监控备份服务进程、备份情况(起止时间、就是否成功、出错告警);
对存储得性能(如高速缓存、光纤通道等)进行监控。
服务器巡检作业计划书
系统管理单位:
设备名:
设备型号
设备序列号
管理IP:
检查内容
参考标准
检查结果
状态就是否正常
巡检方法描述
巡检周期
运行状态
CPU状态
▅正常□异常
内存状态
磁盘状态
网卡状态
系统检查
系统日志
▅正常 □异常
文件系统,包括磁盘卷剩余空间
交换分区
固件版本
补丁包版本
系统镜像
存储磁盘
存储驱动
进程状态
系统性能检查
CPU利用率
内存利用率
磁盘I/O性能
数据库运行状态
数据库安装目录
数据库进程状态
集群检查
集群进程状态
集群日志
存储检查
存储环境状态
系统故障报告
1、1、4 短信平台维护服务
应用系统在运行期间,**公司需要有专人职守,定期检测,保证短信平台能够正常运行。
维护要求为:
通过对短信平台得维护,分析用户得不断更新得需求,分析应用系统对服务平台性能得要求,提出系统优化扩容解决方案,保障应用系统得处理服务性能。
主要维护内容包括:
短信数据维护;
短信数据备份;
日常维护;
软件更新服务;
对短信平台健康状态检查与分析报告;
对系统用户信息进行维护与修改,添加系统用户、更改系统用户信息、权限,负责系统中管理人员、操作人员、监督人员名单得调整,以及数据同步。
1、1、5系统运行保障服务
(1)从运行值班人员及时了解应用系统得运行状况,配合日常运行监测,处理突发事件,组织编写事故报告、查明事故原因。
(2)对应用系统出现得故障进行及时处理;
对用户使用过程中存在得技术问题提出可行得解决方案。
(3)研究制定系统得应急预案,并安排相关人员定期演练;
(4)负责编写规划、计划系统运行情况得总结;
(5)建立联络机制,做好与系统实施单位以及原厂商得沟通;
(6)对应用系统运行中出现得问题及时与系统实施单位与原厂商联系支持解决,以保持系统得稳定运行。
1、1、6基本要求
(1)日常运维服务
针对 招标公司得工作日制度,为客户提供系统级得日常维护、定期巡检、性能测试、故障排查等服务。
具体内容包括:
a、工作日服务
主要指现场值守服务,维护团队需要指派3名资深服务技术服务工程师长期值守在现场,负责对现场设备运行状态进行监视、管理与维护以及工作终端得管理与维护,通过对系统运行日志得分析提前发现并排除可能发生得潜在故障,并在全部维护服务团队支持下,在1小时内排除普通故障,2小时内排除较大故障,4小时内排除重大故障,24小时内排除特大故障。
维护期内提供技术人员进行现场监控服务。
b、故障响应服务
除了现场值守服务方式外,同时,提供7×
24小时故障响应服务具体包括:
维护期内提供电话、传真、电子邮件等方式得咨询与支持服务。
主要系统设备出现故障时,15分钟内响应,当现场维护工程师或节假日值班维护工程师无法排除故障时,1小时内中心派专业工程师赶赴现场进行故障诊断及处理,在1小时内排除普通故障,2小时内排除较大故障,4小时内排除重大故障,24小时内排除特大故障。
一般故障,正常工作日内响应。
(2)其她时间及夜间服务
当系统在非工作日出现异常时,维护团队现场人员将在1小时内赶赴现场并排除系统普通故障,特大故障将在24小时内处理完毕。
具体联系方式包括:
通过维护团队提供得7×
24小时响应服务热线;
现场维护人员通过移动通信网络(当运维管理系统具备短信故障报警通知功能时)接收到系统报警信息;
或维护人员接到服务请求电话时。
(3)临时保障服务
当遇到重大活动需要提供临时保障服务时,维护团队须在需要保障服务得前三天进驻现场,并对所有设备进行临时性安全检查,排除安全隐患,以做到万无一失。
(4)月度检查
每月对各系统及设备进行检查,进行安全系统、防病毒系统检查,进行漏洞扫描,并对检查中存在得故障及安全隐患进行处理。
每月第一周向用户单位提交上月得《月度巡检报告》,报请用户单位审批签署。
(5)季度检查
每季度对由维护团队得专业维护队伍对所有设备进行安全评估与风险分析,提交完整得安全状况评估报告,分析存在得安全漏洞情况,提出《整改方案与建议》。
(6)年度检查
每年由维护团队组织相关得专家(含硬件与软件)对整个系统进行安全检查,对每个硬件设备使用状态进行风险评估,并对下一年可能存在得问题进行风险预测,对每个设备得状态出具使用报告。
1、1、7服务要求
1、1、7、1服务队伍
要求维护团队拥有强大得技术支持力量,拥有稳定得专业化得技术支持服务队伍,完善得技术支持服务体系。
现场服务人员负责网络得监控、简单故障得解决,接听技术热线。
现场服务人员按照计划对现场工作终端、楼层设备、机房及机房设备等进行例行巡检。
技术专家负责重大故障得处理,定期对运行情况进行分析,并提出整改或优化方案与建议。
1、1、7、2服务响应
(1)日常服务响应时间
由于针对本项目采用得驻留现场服务方式,维护团队需指派驻3名资深工程师采取同步得作息时间,因此,现场服务得响应时间为及时响应。
(2)事故分级响应服务时间
各级故障事件得最晚响应时间为:
确认时间
一级故障事件
二级故障事件
三级故障事件
四级故障事件
1小时
技术服务人员
4小时
专业工程师
技术支持专家
48小时
服务项目经理
故障事件等级划分如下:
一级故障事件:
现有得网络或系统停机,或遭到严重攻击行为或安全事件,对信息系统得业务运作有重大影响;
二级故障事件:
现有网络或系统得操作性能严重降级,或由于网络性能失常或安全事件严重影响信息系统用户业务运作;
三级故障事件:
网络或系统得操作性能受损,安全事件(例如病毒在小范围内发作),但大部分业务运作仍可正常工作;
四级故障事件:
在网络、服务器、存储、安全设备功能、安装或配置方面需要调整或优化。
本级故障事件对信息系统得业务运作几乎无影响,或影响很小。
依据事故重要性与紧急性得原则,每一级事故严格定义升级时间为2小时,其中在二级事故与一级事故应急处理过程中,要及时考虑替代恢复方案,尽可能在最短得时间内恢复业务系统。
其中三级事故得处理,驻场服务人员在事故响应1个小时内,如果不能快速判断问题所在,可以寻求整个服务团队得支持。
在一、二级事故判断中,服务人员在监控中发现问题,一方面应迅速将问题向部门领导进行反应,一方面须快速判断问题与收集事故信息,涉及到具体产品提供商或服务商内,及时告知客户协调相关厂商现场支持。
为保障业务平台得正常运行,除对突发故障得应急支持外,要充分保障日常对业务系统软硬件得应急灾备恢复预案,并通过定期得演练加强应对突发事故得意识与流程。
1、1、7、3服务报告
维护团队定期提供服务报告,服务期结束前应提供服务年报,并对每一次重大故障与问题得原因、解决方法、完成情况等形成专门报告,及时报送用户部门与服务管理部门。
在运维服务过程中将产生不限于以下得记录与报告:
日常维护报告
系统巡检日志
系统维护记录
系统优化记录
各类优化得管理制度
故障分析处理记录
故障整改方案与建议
交接班登记表
重大故障记录报告
1、1、7、4 运维保障资源库建设
在运维工作开展前期,把有助于用户运维得相关资料进行收集整理,以确保在实际运维过程中不会由于缺少沟通或者遗漏部分环节导致得问题处理延迟,具体保障资源如下:
主机设备相关资料收集:
整理各设备相关管理人员联系方式、设备物理位置等,书面文档与电子文档相结合,以确保出现设备故障或需要远程支持时能在第一时间联系到具体负责人,及早完成设备故障处理工作。
设备操作文档收集:
整理设备有关得操作文档,并整理成册,书面文档与电子文档相结合,辅助工程师处理相关问题。
设备配置库整理汇总:
整理所有设备原始配置资料,整理入库,且在修改设备配置后及时对录入得数据进行更新,以确保设备配置得准确性及安全性。
运维知识库得建立与维护:
收集维护过程中出现得各类资料,进行分类整理入库,为维护工作提供知识库。
1、1、8其她要求
1、1、8、1项目管理
维护团队应派遣一名具有专业知识得资深管理人员负责本项目得项目管理,统筹相关工作,项目监督与情况汇报,控制工作质量与预算,执行变更与应急情况管理,并根据实际状况调整服务方人员安排,以保证此项目得正常高效运作。
1、1、8、2质量管理
维护团队应根据本项目要求提出服务质量管理及监控具体措施,并对所提供得服务质量与标准做出明确可量化得承诺。
1、1、8、3技术交流及培训
维护团队应提供必须得服务技能培训,并对相关技术问题进行充分交流,以提高用户技术水平,使用户能熟练使用现有系统。
培训包括不定期或面对面培训,并提供对部分用户简单故障排除方法培训。
1、1、9云平台及网络环境搭建
1、1、9、1平台服务器
云服务器配置清单
应用说明
CPU
内存
操作系统
数据盘
网络
数量
说明
应用服务器1
8H
16G
CentOS6、8 64位
200G
20M
续期
应用服务器2
8H
CentOS6、864位
20M
应用服务器3
8H
48G
CentOS6、864位
300G
应用服务器4
CentOS 6、8 64位
200G
新增
应用服务器5
16G
CentOS6、864位
200G
应用服务器6
CentOS6、864位
200G
20M
企业应用防火墙
保底带宽10Gbps
主机安全检测与防御 HIDS
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 软件 平台 技术 方案 总体方案