3.3信息系统设施运维的内容
文章目录
- 3.3信息系统设施运维的内容
- 设施运维的内容
- 例行操作运维
- 例行操作运维过程中的主要成果
- 例行操作运维——设施监控
- 例行操作运维——预防性检查
- 例行操作运维——常规操作
- 响应支持运维
- 响应支持运维过程中的主要成果
- 响应支持运维——事件驱动响应
- 响应支持运维——服务请求响应
- 响应支持运维——应急响应
- 优化改善运维
- 优化改善运维形成的主要成果
- 优化改善运维——适应性改进
- 优化改善运维——纠正性运维
- 优化改善运维——改善性改进
- 咨询评估运维
- 咨询评估运维过程中形成的主要成果
设施运维的内容
- 例行操作运维
- 响应支持运维
- 优化改善运维
- 咨询评估运维
例行操作运维
是指设施运维人员通过预定的(如巡检、监控、备份、应急测试、设备保养等)例行服务,以及时获取运维对象状态,发现并处理潜在的故障隐患,保证信息系统设施的稳定运行。
关注要素 | 要素内容 |
---|---|
例行服务范围、内容 | 根据运维对象的特点,制定例行服务的周期、范围、人员、内容和目标 |
例行服务指导手册 | 编制例行服务的指导手册,并指定专人负责更新和完整。指导手册包括: 例行服务的任务清单 各项任务的操作步骤及说明 判定运行状态是否正常的标准 运行状态信息的记录要求 制定异常状况处置流程 例行服务的报告模版 |
与其他服务内容的接口 | 必要时创建与响应支持、优化改善和咨询评估服务的接口 |
例行操作运维过程中的主要成果
成果类型 | 成果内容 |
---|---|
有形成果 | 运维对象当前运行状态(正常、异常、存在潜在风险等) 运行状态从异常到正常的状态恢复 对潜在风险的消除 |
无形成果 | 运行状态信息记录 运行状态异常处理记录 趋势分析及可能的风险消除建议 例行操作交付过程中的其他报告 |
例行操作作业的三种类型:设施监控、预防性检查和常规操作。
例行操作运维——设施监控
设施监控:通过各类工具和技术,对设备的运行状态进行记录和分析,从而及时发现故障,以便进行故障的诊断与恢复。
设施监控的内容:设备状态、运行状况和变化情况。
设施监控的对象:
- 基础设施的监控(针对硬件环境系统)
- 网络设施的监控(针对网络系统)
- 硬件设施的监控(针对硬件服务器和存储设备系统,分为:状态监控、性能监控、可用性监控)
- 基础软件的监控(针对软件系统)
基础设施的监控
系统 | 监控内容 |
---|---|
空调系统 | 环境温度、湿度、出风温度、回风温度及告警情况等 |
供配电系统 | 电流、电压、功率因数、有功功率、无功功率等 |
发电机 | 启停情况、电流、电压、负载率、控制系统供电情况等 |
UPS系统 | 输入电流/电压、输出电流/电压、频率、功率因数、负载率、温度、告警情况等 |
消防系统 | 告警情况等 |
安全系统 | 告警情况、监控录像等 |
网络设施的监控
- 网络拓扑监控
- 通过物理拓扑图能真实地反映网络设备的物理运行状态
- 网络设备监控
- 网络链路监控
- 网络设备端口监控
- 通过网络端口丢包率监测能够监测端口通信链路的稳定性、抖动率,及时发现系统隐患,保证业务正常
硬件设施的监控
硬件设施的监控:重点是对服务器及存储设备的运行状态、性能、资源使用分配情况进行监控,以便了解其是否满足运行要求。
- 状态监控
- 监控和管理服务器状态
- 性能监控
- 监控服务器CPU负载、内存和磁盘使用量、并发会话数等性能指标和运行状态参数
- 可用性监控
- 监控服务器的事件日志、及各种服务的可用性
硬件设施监控的内容
系统 | 监控内容 |
---|---|
服务器及存储设备 | 监控主机服务器LED面板运行错误码 监控服务器电源工作状态指示灯 监控服务器硬盘工作状态指示灯 监控服务器CPU使用比例情况 监控操作系统重要文件系统空间使用情况 监控服务器内存使用情况 |
基础软件的监控
基础软件的监控:重点是对基础软件的运行状态、运行性能、资源使用分配情况进行监控,以便了解其是否满足运行要求。
系统 | 监控内容 |
---|---|
数据库 | 监控数据库主要进程运行情况 监控数据库连接是否正常 监控数据库表空间使用情况 监控数据库日志是否有异常 监控数据库日常备份是否正常等 |
中间件 | 监控中间件运行状态 监控主要进程运行状态 监控中间件通信网络连接情况 监控中间件日志是否有报错信息 |
应用服务 | 监控应用服务运行状态 监控主要进程运行状态 监控应用通信网络连接情况 监控应用服务日志是否有报错信息 |
- 数据库监控
- 监控包括数据库系统的性能、事务、连接等方面的数据。如数据库工作状态、数据库表空间的利用情况、数据文件和数据设备的读/写命中率、数据碎片的情况、数据库的进程情况、数据库内存利用状态等
- 中间件监控
- 监控中间件的各项运行状态参数,包括配置信息、连接池、线程队列、负载监测、通道情况监测等如JVM、JDBC、Servlet、EJB
- 应用服务监控
- 通过对信息系统基础应用平台的基础信息、连接测试、基本负载等的监测,有效、实时的分析HTTP/HTTPS、DNS、FTP、DHCP、LDAP等
例行操作运维——预防性检查
预防性检查:是在信息系统设施监控的基础上,为保证信息系统设施的持续正常运行,运维部门根据设备的监控记录、运行条件和运行状况进行检查及趋势分析,以便及时发现问题并消除和改进。
主要包括:
- 性能检查
- 脆弱性检查
基础设施的预防性检查
系统 | 性能检查内容 | 脆弱性检查内容 |
---|---|---|
空调系统 | 高压压力、低压压力,冷冻水压力、温度、冷却水压力、风机运行情况 | 机房热点情况、室内机漏水检查、室内风机运转情况、加湿罐阳极棒检查、过滤网检查 |
供配电系统 | 接地电阻、零度电流、器件发热情况 | 导线、器件发热情况,防浪涌器件情况 |
发电机 | 转速、发热情况 | 油位,吸气、排烟通道 |
UPS系统 | 器件发热情况、电池情况 | 器件、导线发热情况,电池放电时间 |
消防系统 | 钢瓶压力、有效期、探头污染 | 启动瓶、管道开关、气体压力 |
安全系统 | 器件灵敏度、画面清晰度 | 器件灵敏度、监控死角问题 |
网络设施的预防性检查
系统 | 性能检查内容 | 脆弱性检查内容 |
---|---|---|
网络及网络设备 | 检查网络设备非业务繁忙期CPU使用峰值情况 检查网络设备非业务繁忙期内存使用峰值情况 检查设备板卡或模块状态使用情况 检查设备机身工作使用情况 检查主要端口的利用率 检查链路的健康状态(包括IP包传输时延、IP包丢失率、IP包误差率、虚假IP包率) | 检查设备链路的冗余度要求 安全事件周期性整理分析 设备生命周期与硬件可靠性评估 备件可用性、周期性检查 |
硬件设施的预防性检查
系统 | 性能检查内容 | 脆弱性检查内容 |
---|---|---|
服务器及存储设备 | 检查服务器非业务繁忙期CPU使用峰值情况 检查服务器非业务繁忙期内存使用峰值情况 检查操作系统重要文件系统空间使用情况 检查服务器、存储I/O读/写情况 检查数据流网络流量情况 | 检查服务器、存储关键硬件部件是否满足运行冗余度要求 检查当前操作系统版本是否安装相关风险补丁 检查重要业务数据文件或操作系统文件空间使用是否达到预定阈值 检查关键机密系统数据安全防护设置是否满足要求 检查系统使用资源是否超过预定阈值 |
基础软件的预防性检查
系统 | 性能检查内容 | 脆弱性检查内容 |
---|---|---|
数据库 | 检查数据库业务CPU使用情况 检查数据库业务内存使用情况 检查数据库业务锁情况 检查数据库业务会话数和操作系统进程数情况 检查数据库buffer等命中率情况 检查数据库业务等待情况 | 检查当前数据库版本是否安装相关风险补丁 检查表空间的使用是否达到了预定阈值 检查数据库关键文件是否做了镜像 检查数据库备份策略是否合理 检查数据库是否存在异常用户 |
中间件 | 检查中间件服务器业务CPU使用峰值情况 检查中间件服务器业务内存使用峰值情况 检查中间件服务器业务会话连接情况 | 检查中间件服务器、存储关键硬件部件是否满足冗余度要求 检查当前中间件版本是否安装相关风险补丁 检查中间件的数据库连接密码配置文件是否存在明码 检查相关重要运行程序是否保留备份 检查操作系统配置是否符合运行要求 |
例行操作运维——常规操作
常规操作运维:
是对信息系统设施进行的日常维护、例行操作,主要包括定期保养、配置备份等,以保证设备的稳定运行。
- 基础环境常规操作:
- 基础类操作:对基础环境的日常运行、维护和保养
- 测试类操作:对基础环境各系统功能、性能进行测试
- 数据类操作:对基础环境运行日志、记录等数据进行操作
网络设备的常规操作
主要包括网络设备操作系统软件备份及存档;网络设备软件配置备份及存档;监控系统日志备份及存档;监控系统日志数据分析与报告生成;网络配置变更文件的审核;网络配置变更的操作;网络配置变更的记录。
硬件系统的常规操作
检查硬件的日常运行
系统 | 常规操作内容 |
---|---|
服务器及存储设备 | 检查设备是否正常启动 检查硬件设备是否有运行告警灯或故障灯 检查设备运行运行日志是否有报错信息 检查业务系统运行是否正常 检查应用系统是否有运行错误日志 检查系统关键进程是否运行正常等 |
数据库 | 检查数据库服务是否正常启动 检查数据库网络侦听是否正常 检查数据库运行日志是否有报错信息 检查数据库定时执行任务是否正常执行 检查数据库备份是否正常 |
中间件 | 检查中间件相关进程是否已正常启动 检查中间件运行日志是否有报错信息 检查业务系统交易运行是否正常 |
考法1:概念
例行操作作业不包含(D)
A.设施监控 B.预防性检查 C.常规操作 D.咨询评估
考法2:结合实际
小张是信息系统设施运维工程师,他某天的工作内容为机房巡检、UPS电池扩容、月度应急演练。从运维内容看,每项工作分别对应的类别为(D)
A.例行操作、优化改善、响应支持
B.例行操作、例行操作、例行操作
C.例行操作、响应支持、例行操作
D.例行操作、优化改善、例行操作
考法3:下午题
阅读下列说明,回答问题1至问题4,将解答题填入答题纸的对应栏内。
【说明】
某公司A签约了一个城市银行核心业务系统软硬件运维服务项目,服务期1年。针对银行的重要信息系统的硬件设备和基础软件提供运行维护服务。
公司A为该项目组建了运维团队,其中小张被派驻现场,负责信息系统的日常监控和备份等操作。当出现系统故障时,小张需要配合技术专家诊断和排除故障。小张除了日常使用监控工具监测和记录服务器、基础软件、数据库等运行状态外,还需要定期将规定的数据备份到磁带机上,以避免人为误操作、硬盘损坏、病毒及黑客造成关键数据的永久丢失,保证数据的可用性、一致性和完整性。
【问题3】
作为驻场人员,需要熟悉例行操作运维过程中的例行服务指导手册。请从候选答案中选择三个属于指导手册中的内容。(A、C、F)
A.各项任务的操作步骤及说明
B.响应支持记录
C.判定运行状态是否正常的标准
D.重大事件的分析改进报告
E.应急处理的报告
F.异常状态的处置流程
解析:
例行服务指导手册,其内容包括六点:
①例行服务的任务清单
②各项任务的操作步骤及说明
③判定运行状态是否正常的标准
④运行状态信息的纪录要求
⑤判断异常状态处置流程,包括角色定义、处置方法、流转过程和结束要求
⑥例行服务的报告模版
【问题4】
预防性检查时例行操作的主要工作,主要包括性能检查和脆弱性检查两个方面。请从候选答案中选择三个属于脆弱性检查的内容。(C D E)
A.检查服务器非业务繁忙期内存使用峰值情况
B.检查数据网络流量情况
C.检查设备链路的冗余度要求
D.设备生命周期与硬件可靠性评估
E.检查数据库备份策略是否合理
响应支持运维
是运维人员针对服务请求或故障申报而进行的响应性支持服务,包括变更管理、故障管理等
关注要素 | 要素内容 |
---|---|
明确响应支持受理的渠道 | 如电话、传真、邮件或Web方式 |
对响应支持的实施过程进行记录,甄别响 应请求是否为有效的申请:对有效申请进 行分类,并根据紧急程度、影响范围和重 要程度判断优先级,然后分发给相应人员 进行响应支持 | 响应支持优先级一般划分为:(1)紧急程度——响应支持处理的时间要求,如不紧 急、紧急和非常紧急(2)影响范围——响应支持涉及的运维对象规模,如 个别对象、部分对象和全部对象(3)重要程度——响应支持涉及的运维对象在信息技 术或业务系统中的重要性,如不重要、重要和非常重 要 |
在响应支持处理过程中设置预警、告警机 制及升级流程 | (1)预警——当响应支持在承诺时间即将到达时尚未 结束,应提前预警或升级,以引起相关人员的关注, 确保按时解决问题(2)告警——当响应支持在承诺解决时间到达时尚未 结束,应给予告警和升级,以通知相关人员关注,确 保尽快解决问题(3)升级——响应支持处理的升级,包含将初始设定的优先级上调:通知预先设定好的上级管理者,以调动更多资源解决该事件:通知预先设定好的高级专家,以调动更专业的人员解决该事件 |
在响应支持处理过程中的各个关键环节 | 将进展信息及时通知供需双方相关人员 |
与其他服务内容的接口 | 必要时创建与例行操作、优化改善和咨询评估服务的 接口 |
响应支持运维过程中的主要成果
成果类型 | 成果内容 |
---|---|
无形成果 | (1)运行状态从异常到正常的状态恢复(2)运维知识的传递 |
有形成果 | (1)响应支持记录(2)响应支持关键指标数据记录(响应事件量、问题 数、故障时间/次数)(3)重大事件(故障)的分析改进报告(4)满意度分析(5)响应支持交付过程中的其他报告 |
响应支持作业根据响应的前提不同,分为事件驱动响应、服务请求响应和应急响应。
响应支持运维——事件驱动响应
事件驱动响应是指由于不可预测原因导致服务对象整体或部分功能丧失、性能下降,触发将服务对象恢复到正常状态的服务活动。
事件驱动响应的触发条件包括外部事件、系统事件和 安全事件三种。
外部事件
指为信息系统设施运行提供支撑的、协议获得的、不可控的、非自主 运维的资源,如互联网、租赁的机房等由服务中断引发的事件;
系统事件
指运维标的物范围内 的、自主管理和运维的系统资源服务中断引发的事件;
安全事件
指安全边界破坏、安全措施或 安全设施失效造成的安全等级下降和用户利益被非法侵害的事件。
1)基础设施的事件驱动响应
主要包括以下内容。
-
空调系统:故障排查,关闭部分机组以维持机房最低温/湿度指标等。
-
供配电系统:故障排查,投入备用电源回路,关闭非重要回路等。
-
发电机:启动发电机,油料补充。
-
UPS 系统:故障排查,旁路系统,关闭非重要输出等。
-
消防系统:故障排查,系统启动,报警联动,疏散警示等。
-
安全系统:手动开启或关闭门禁系统,检查告警或监视记录等。
2)网络设施的事件驱动响应
主要包括按预定义级别的网络通信相关故障发生所启动的响应支持,特定事件或时间所驱 动的响应支持,信息系统变更所驱动的响应支持,信息系统故障所驱动的响应支持,灾难性事 件所驱动的响应支持。
3)硬件设施的事件驱动响应
主要包括针对硬件设施故障引起的业务中断或运行效率无法满足正常运行要求等,例如: (1)设备电源硬件故障导致设备宕机。
-
服务器通信模块故障导致业务通信中断(如网卡损坏)。
-
服务器文件系统异常导致操作系统运行缓慢,从而引起业务交易超时。
-
数据库软件异常导致数据库停止,从而引起业务交易中断。
-
主机、存储光纤卡异常引起数据无法读/写,导致业务无法正常执行等。
4)基础软件的事件驱动响应
主要包括针对基础软件故障引起的业务中断或运行效率无法满足正常运行要求,例如:
-
数据文件坏块引起数据库异常。
-
设备电源硬件故障导致数据库异常。
-
主机、通信模块或网络设备故障导致数据库连接中断。
-
主机硬盘、光纤卡或存储异常引起数据无法读/写,导致数据库宕机。
-
主机CPU、磁盘、数据库表空间等资源耗尽导致数据库系统运行缓慢。
-
数据库产生死锁。
-
数据库配置变更导致数据库系统异常或运行缓慢。
-
主机通信模块或网络设备故障造成软件异常。
-
由于操作系统原因导致中间件软件异常。
-
由于数据库原因导致中间件软件异常。
响应支持运维——服务请求响应
服务请求响应是指由于各类服务请求引发的针对服务对象、服务等级做出调整或修改的响 应型服务。
1)基础设施的服务请求响应
-
空调系统:调整温度、湿度参数等。
-
供配电系统:增减回路,增减供电类型(如直流、110V) 等。
-
发电机:为指定负载供电等。
-
UPS 系统:旁路操作,为指定负载供电等。
-
消防系统:增减终端设备,检查及提供告警及监控记录,备份或清除记录等。
2)网络设施的服务请求响应
指对网络及网络设备的操作作业请求,如增加、降低网络接入的数量或速度,更改网络设 备配置等进行的响应服务。
3)硬件设施的服务请求响应
指对硬件设施的操作作业请求,如启动、关闭端口或服务;更换、更新或升级设备硬件等 进行的响应服务,如设备搬迁、设备停机演练、设备清洁维护、系统参数调整和文件系统空间扩容等。
4)基础软件的服务请求响应
指针对基础软件,根据信息系统软件运行需要或相关方的请求而进行的响应服务。如数据库版本升级、数据库灾难恢复、数据库调优、数据库数据移植、数据清理、中间件服务器更换、 中间件参数调整和软件版本升级等。
响应支持运维——应急响应
主要环节 | 重点任务 | 日常工作 | 故障响应 | 重点时段保证 |
---|---|---|---|---|
应急准备 | 运维组织建立 | √ | ||
风险评估与改进 | √ | |||
事件级别划分 | √ | |||
预案制定 | √ | |||
培训与演练 | √ | |||
监测与预警 | 日常监测与预警 | √ | √ | |
记录与报告 | √ | √ | ||
核实与评估 | √ | √ | ||
预案启动 | √ | √ | ||
应急处置 | 应急调度 | √ | √ | |
排查与论断 | √ | |||
处理与恢复 | √ | |||
升级与信息通报 | ||||
持续服务与评价 | √ | √ | ||
事件关闭 | √ | √ | ||
总结改进 | 事件总结 | √ | √ | |
应急管理体系的保持 | √ | √ | ||
应急准备工作的改进 | √ | √ | √ |
1)应急准备
-
建立应急管理的组织和制度:建立应急管理组织,确保组建合适的组织以满足日常运 维和应急响应的服务要求,明确应急响应组织中的角色及关系。应急管理组织建立后对应的应 急管理制度包括负责制定应急响应方针(应急响应原则、范围等),明确应急响应的范围、要 求、等级等。
-
风险评估与改进:风险评估与改进的目的是系统地识别运维服务对象及运维活动中可 能出现的风险并提前改进,包括风险识别与评估、风险应对。
2)应急事件级别划分:应急事件分级的主要参考要素为信息系统的重要程度、紧急程度、 系统损失和社会影响。
灾难事件(I 级)
:指由地震、火灾、恐怖袭击等原因造成主要IT 设施毁灭性损坏,或者 由于系统平台或业务数据遭受严重破坏,无法在短时间内恢复系统服务,造成核心业务服务中 断超过 4 8 小 时
。
重大事件(Ⅱ级)
:指造成核心业务服务中断超过24小时
,或重要业务数据丢失,或业务数据需要后退到上一备份状态 。
严重事件(Ⅲ级)
:指造成核心业务服务中断超过12小时
,或少量业务数据丢失。
一般事件(IV 级)
:指造成核心业务服务中断超过4小时
,或管理支撑系统服务中断超过 24小时。
3)预案制定:预案制定的目的是提供应对运维应急事件的操作性文件。
4)培训与演练:培训需要制定应急响应培训计划,并组织相关人员参与,将应急响应预 案作为培训的主要内容。
2、监测与预警
-
日常监测与预警:日常监测与预警负责保障运维服务的可用和连续,及时发现运维服 务应急事件并有效预警。
-
记录与报告:建立监测、预警信息登记和报告制度。
-
核实与评估:核实与评估负责对出现的运维服务应急事件进行有效识别。
-
预案启动:确保以规定的策略和程序启动预案,并保持对应急事件的跟踪。
3、应急与处置
- 应急调度
- 排查与诊断
- 处理与恢复
- 升级与信息通报
- 持续服务和评价
- 事件关闭
- 关闭申请
- 关闭核实
- 关闭通报
4、总结改进
-
应急事件总结:在事件关闭之后,组织相关人员对本次事件的原因、处理过程和结果 进行分析,总结经验教训,并采取必要的后续措施。
-
应急体系的保持:为保证应急体系的有效性和时效性,需要对应急体系进行不定期及定期的维护和审核,以确保组织具有足够的应急响应能力
- 体系维护
- 体系审核
-
应急准备工作的改进:应急时间总结、体系维护和体系审核的结果将作为应急准备阶 段的重要输入信息,组织应根据应急时间总结报告中给出的建议项和体系评审结果来调整应急 准备及风险应对的策略。
优化改善运维
优化改善运维是指运维人员通过提供调优改进,达到提高设备性能或管理能力的目的。
关注要素 | 要素内容 |
---|---|
优化改善方案 | 方案中应包含优化完善的目标、内容、步骤、人员、预算、 进度、衡量指标、风险预案和回退方案等 |
对优化改善方案进行必要的评审 | 包括内、外部评审 |
安排试运行观察期 | |
对遗留问题制定改进措施 | |
在优化改善完成后进行必要的回顾总结 | |
与其他服务内容的接口 | 必要时创建与例行操作、响应支持和咨询评估服务的接口 |
优化改善运维形成的主要成果
成果类型 | 成果内容 |
---|---|
无形成果 | (1)设备和系统等运行性能的提升(2)组织和流程等管理水平的提升 |
有形成果 | (1)优化方案及相关评审记录(2)变更和发布报告(3)优化改善交付过程中的其他报告 |
优化改善运维——适应性改进
优化改善运维中的适应性改进是指在已变化或正在变化的环境中可持续运行而实施的改造。
1)基础设施的适应性改进,主要包括以下内容。
-
空调系统:调整温/湿度参数等。
-
供配电系统:回路调整等。
-
发电机:调整启动方式等。
-
安全系统:调整授权模式、告警模式、云台运转周期等。
2)网络设施的适应性改进
主要包括路由策略调整,设备或链路负载调整,安全策略调整,监控对象覆盖范围调整, 局部交换优化,局部可靠性优化等。
3)硬件设施的适应性改进
针对服务器及存储设备而言,主要包括服务器交换区SWAP容量调整,操作系统内核参数 调整,存储RAID 保护级别调整,文件系统使用空间调整划分等。
4)基础软件运维的适应性改进
指根据信息系统软件的特点和运行需求,对软件进行调整,如相关操作系统参数调整,中间件参数配置优化,数据库参数调整,临时表空间、用户表空间调整,数据库重命名,数据库 日期格式调整等。
优化改善运维——纠正性运维
1)基础设施的纠正性运维,基础设施的纠正性运维主要包括以下内容。
-
空调系统:调整温/湿度参数等,调整机组位置等。
-
供配电系统:更换开关、导线以适配负载容量等。
-
安全系统:调整终端位置,更换终端设备型号等。
2)硬件设施的纠正性运维
根据应用系统的特点和运行需求,分析服务器及存储设备的运行情况,调整服务器及存储 设备不合理的初始容量配置、参数配置等,以满足信息系统的运行需求,如调整网卡通信速率 模式,调整数据库表空间大小,调整数据库相关参数,调整操作系统相关内核参数等。
优化改善运维——改善性改进
优化改善运维中的改善性改进是指根据信息系统或相关设备的运行需求或设计缺陷,采取 相应改进措施,以增强安全性、可用性和可靠性。
1)基础设施的改善性运维,基础设施的改善性运维主要包括以下内容。
-
空调系统:增减机组、APU 单元等。
-
供配电系统:增加回路、ATS 设备。
-
UPS 系统:增加主机数量、电池数量等。
-
安全系统:增加告警联动、终端数量、存储容量等。
2)网络设施的改善性运维
主要包括硬件容量变化(如网络设备硬件、软件升级、带宽升级等),整体网络架构变动, 网络架构容量变化(如网络子系统的增减等),系统功能变化(如新增功能区、安全系统、审 计系统等),路由协议应用及部署调整,整体安全策略收紧,交换优化,可靠性优化等。
3)硬件设施的改善性运维
指根据应用系统的特点和运行需求,通过对服务器及存储设备的运行记录、趋势的分析, 对服务器及存储设备进行调整、扩容或升级等,包括存储磁盘容量增加,服务器 CPU 个数增 加,服务器内存容量增加,服务器本地磁盘容量增加,网卡升级等。
4)基础软件的改善性运维
指根据应用系统的特点和运行需求,通过对数据库的运行记录、趋势的分析,对数据库进 行调整、扩容或升级,主要包括软件版本升级、打补丁;由于主机CPU 个数、内存容量增加调 整软件相应的参数;由于主机存储设备的增加调整数据库表空间容量等。
预防性运维
优化改善运维中的预防性改进是指监测和纠正系统运行过程中潜在的问题或缺陷,以降低 系统风险,满足未来可靠运行的需求。
1)基础设施的预防性运维,主要包括以下内容。
-
空调系统:调整机组位置,调整出/回风方式等。
-
供配电系统:更换开关,更换导线,调整回路等。
2)网络设施的预防性运维,主要包括以下内容。
-
配置参数优化
-
安全优化(如密码加密,Telnet 控制等)。
-
提高软件配置命令可读性。
硬件设施的预防性运维
根据对服务器及存储设备的运行记录、趋势的分析结合应用系统的需求发现服务器及存储 设备的脆弱点,有针对性地进行改进性作业,如删除垃圾数据,释放数据空间;增加数据文件 空间使用范围;增加电源供电模块冗余;调整存储RAID 数据保护级别等。
基础软件的预防性运维
根据信息系统的特点和运行需求,分析软件的运行情况,调整软件的不合理初始配置、参数配置等,以满足应用系统的运行要求,如连接池参数调整,关键配置文件定期备份,调整数据库备份策略,数据库配置参数调整,数据库资源使用调整,数据库执行 SQL 调整,主机操作系统内核参数调整。
考法1:概念
在针对基础设施进行运维时,调整服务器及存储设备不合理的初始容量,参数配置等,属于(B)工作内容
A.适应性运维
B.纠正性运维
C.改善型运维
D.预防性运维
咨询评估运维
咨询评估运维指运维人员根据系统运行的需求,提供服务器及存储设备的咨询评估服务, 并提出存在或潜在的问题和改进建议。
关注要素 | 要素内容 |
---|---|
在咨询评估开展前,制定咨询评估计划 | 包括目标、内容、步骤、人员、预算、进度、交付成果和沟 通计划等 |
编写咨询评估报告 | 包括现状评估、访谈调研、需求分析、咨询建议等 |
制定报告的评审制度 | 包括组织内部评审和外部评审,并进行记录 |
持续跟踪咨询评估的落地执行情况 | 咨询评估的落地执行具体情况 |
咨询评估运维过程中形成的主要成果
成果类型 | 成果内容 |
---|---|
无形成果 | (1)运维对象的衡量评价(2)运维对象的规划建议 |
有形成果 | (1)咨询评估计划(2)咨询评估的方案和评审记录(3)咨询评估交付过程中的其他报告 |
咨询评估作业包括被动性咨询服务、主动性咨询服务。
- 被动性咨询服务是根据 需求,对服务对象进行现状调研和系统评估,识别出服务对象的运行健康状况和弱点,并提出 改进建议;
- 主动性咨询服务是根据应用系统的特点和运行需求,对服务对象的运行状况、运行 环境进行分析和系统评估,提出改进或处理的建议和方案。
网络设施的咨询评估,主要包括以下内容。
-
网络实际负荷与承载能力分析。
-
网络预期负荷与承载能力分析与建议。
-
网络架构变动分析与建议。
-
网络路由策略变动分析与建议。
-
网络安全策略变动分析与建议。
-
网络配置调优分析与建议等。