运行维护管理制度专业 .专注目 录 1、总则3 2 、编制方法3 3 、运维工作职责3 4 、运维服务管理体系54.1 运维服务管理对象64.2 运维系统功能框架64.3 运维管理组织结构74.3.1 项目负责人 84.3.2 项目经理 84.3.3 技术主管 94.3.4 服务台 94.3.5 网络管理员 104.3.5 应用 、数据库管理员 104.3.7 终端管理员 114.4 运维服务流程 11 . 学习参考.专业 .专注4.4.1 项目运维服务工作流程图124.4.2 服务台 - 14 -3.4.3 事件管理 - 15 -4.4.4 工单管理 - 15 -4.4.5 问题管理 - 16 -4.4.6 变更管理 - 16 -4.4.7 配置管理 - 16 -4.4.8 知识库管理 - 17 -4.4.9 统计及工作报告 - 17 - 5 、运维服务内容- 17 -5.1 服务目标 - 17 -5.2 资产统计服务 - 18 -5.3 网络 、安全系统运维服务- 19 -5.4 主机 、存储系统运维服务- 19 -5.5 数据库系统运维服务- 20 -5.6 中间件运维服务- 21 -5.7 终端 、外设运维服务 - 22 - 6 、应急服务响应措施- 22 - . 学习参考.专业 .专注 6.1 应急预案实施基本流程 20 6.2 突发事件应急策略 20 7 、服务管理制度规范21 7.1 服务时间 21 7.2 行为规范 22 1、总则第一条为保障公司信息系统软硬件设备的良好运行,使员工 的运维工作制度化 、流程化 、规范化 ,特制订本制度 。
第二条运维工作总体目标:立足根本促发展,开拓运维新局 面 。在企业发展壮大时期,通过网络 、桌面 、系统等的运维 ,促进 企业稳定可持续性发展。第三条运维管理制度的适用范围:运维部全体人员 。 . 学习参考.专业 .专注 2 、编制方法本实施细则包括运维服务全生命周期管理方法、管理标准 / 规 范 、管理模式 、管理支撑工具 、管理对象以及基于流程的管理方 法 。本实施细则以 ITIL/ISO20000 为基础 ,以信息化项目的运维为目 标 ,以管理支撑工具为手段,以流程化 、规范化 、标准化管理为方 法 ,以全生命周期的 PDCA循环为提升途径 ,体现了对运维服务全过 程的体系化管理 。 3 、运维部工作职责一 、负责网站运维和技术支持(一 )根据网站运营战略和目标,负责网站整体架构、栏目 、 应用系统等技术开发方案制定和组织开发,保障网站技术的稳定性 和先进性 。(二 )负责网站栏目和应用系统的使用培训和操作使用指南编 写 ,对用户使用过程中出现问题的沟通和解决;(三 )网站设备和软件购买计划书的拟定,包括采购数量、品 牌规格 、技术参数 。会同行政部进行采购。(四 )网站设备和软件操作规程和应用管理制度的制定,并负 责监督执行 。
. 学习参考.专业 .专注(五 )网站设备和软件安装、调试和验收 ,使用培训和维修保 养 。(六 )网站日常运行过程中信息安全和技术问题的协调解决, 保障网站 24 小时安全稳定运行 。(七 )网站技术服务外包管理,主要包括技术外包开发、运行 服务托管和空间域名管理。(八 )负责网站管理系统及设备保密口令的设置和保存,保密 口令设置后报中心主任备案,保密口令设定后任何人不得随意更 改 ,保密口令每季度更新一次。(九 )负责网站新程序、新系统和网站改版升级方案技术的设 计开发 。二 、负责网站信息和技术安全(一 )执行国家和省上有关网络信息技术安全的法律法规,与 通信管理和网络安全监管部门联络,及时处理网站信息技术安全方 面存在的问题 ,确保网站安全 、稳定 、可靠运行 。(二 )网站信息技术安全保密制度和工作流程的制定,落实信 息技术安全保密责任制,执行 谁主管“、谁负责 ,谁主办 、谁负责 ” 的原则 ,责任到人 。( 三 )在服务器和计算机之间设置硬件防火墙,在服务器及工作 站上均安装防病毒软件,进行硬件和技术双保护,确保网站不受病 毒和黑客攻击 。(四)负责网站信息技术安全应急处理预案制定和实施。
. 学习参考.专业 .专注(五 )安排专人监控网站各频道,各页面 ,各版块 ,各栏目信 息内容 ,建立网站信息技术安全监控值班登记制度,发现问题及时 处理 ,并登记问题和处理结果登记;(六 )建立多机备份网站信息服务系统机制,一旦主系统遇到 故障或受到攻击导致不能正常运行,可以在最短的时间内替换主系 统提供服务 。(七 )建立网站系统集中式权限管理,按照岗位职责设定工作 人员操作权限,针对不同应用系统、终端 、操作人员 ,设置共享数 据库信息的访问权限,并设置密码 。不同的操作人员设定不同的用 户名 ,且定期更换 ,严禁操作人员泄漏密码。 4 、运维服务管理体系运维服务管理体系规定了运维活动涉及的各类实体, 以及这些实 体间的相互关系 。相关的实体按照运维服务管理体系进行有机组 织 ,并协调工作 ,按照服务协议要求提供不同级别的IT运维服务 。 4.1 运维服务管理对象运维服务管理对象包括基础设施、应用系统 、用户 、供应商 、 以 及 IT运维部门和人员 ,具体内容如下 : . 学习参考.专业 .专注(1)基础设施包括网络 、主机系统 、存储/ 备份系统 、终端系统 、 安全系统 、 以及机房动力环境等 。
(2)应用系统包括内部办公系统、门户网站 、面向公众的应用系统 等 。(3)用户包括使用如上应用系统的用户。(4)供应商包括基础设施和应用系统的供应商以及IT运维服务的供 应商 。(5)运维部门和人员包括内部参与运维活动的相关部门和人员,以 及提供运维服务的企业和相关人员。 4.2 运维系统功能框架根据建设单位的系统结构和业务开展需要,运维项目组将项目的 维护框架分为 9个具体组成部分 ,分别为 :服务台 、时间管理 。工单 管理 、 问题管理 、变更管理 、配置管理 、工程师考核 、知识库管 理 、统计 、系统管理等 9个子项 。而具体运维流程将以此为依据开展 工作 。 . 学习参考.专业 .专注 4.3 运维管理组织结构本运维项目的运维管理结构位三层模式,具体如下图所示 。 由 项目负责人与甲方进行业务范围接洽,并将沟通结果向下传递。项 目经理负责项目的整体运维工作,包括各种制度的制定和实施。运 维工程师则在项目经理的指导下开展维护工作。 . 学习参考.专业 .专注 4.3.1 项目负责人职责 :负责项目商务 、整体协调事宜 。职位描述 :1 )、整体负责建设单位运维项目服务计划的制定,领导项目经 理并安排项目工作,指导项目经理完成具体维护工作,每周听取项 目经理的工作汇报 ,负责考核项目经理工作完成情况。
2 )、协助建设单位完成新增项目的调研、方案设计并指导项目 经理进行具体实施。 4.3.2 项目经理职责 :规划 、执行 、完善信息化项目的运维工作,指导网络 、 数据库维护工程师开展工作。职位描述 :1、根据公司战略目标 ,指导下属工程师开展客户服务工作,确 保运维工作能够满足客户的实际需要;2 、建立和持续完善运维管理体系,优化运维流程流程 ,解决运 维服务中出现的特殊问题;3 、规划并提升运维工程师专业服务能力,在整体上提高客户满 意度 ;4 、制定和持续完善绩效考核体系; . 学习参考.专业 .专注5 、制定整理运维项目的应急预案系统,并指导运维工程师实 施 ;6 、提高自身专业技能 ,在业务方面给予网络管理员和数据库管 理员指导 。 4.3.3 技术主管职责 :应用 、数据库管理 ,oracle 性能调优 ,实现应用负载均 衡 。职位描述 :1、技术主管非项目常驻人员,根据项目需要进行专业方面指导;2 、 负责数据库性能分析与调优,数据库运行状态监控,及时发现异常并快速处理。3、熟练掌握 Oracle10G 的RAC技术 ,能够实现部署及调优 。4 、 掌握WAS 、Weblogic、Tomcat 、websphere 等中间件的工作原理 ,能够实现部署调优及故障解决。
5、熟练掌握 red-flag、redhat 等linux 操作系统 ,部署oracle10g 、mysql 数据库 。熟练掌握 dataguard 技术 ,保证oracle 数据库冗灾 、数据保护 、故障恢复 。6、负责应用负载均衡的部署和调试。7、负责指导数据库工程师管理员开展工作。 . 学习参考.专业 .专注 4.3.4 服务台职责 :故障电话受理 ,文档管理 。职位描述1、负责业务的救助电话的受理工作;2 、 故障处理的发起人 , 同时进行维护工程师指派,跟踪事件处理状态 ;3、进行维护故障统计、用户满意度统计 、工作报表输出等工作 ;4 、 协助项目经理 ,进行文档整理 、归类 、保存等工作 。 4.3.5 网络管理员职责 :维护建设单位网络系统正常,解决网络相关故障 。职位描述 :1、对现有服务器 、局域网络及机房 、配线间的日常管理维护;2 、对信息安全建设提出相关建议,确保网络的安全 ;3 、保证外网光纤线路正常,保证局域网运行正常;4 、对网络系统和网络设备的运行状态进行监控;5 、熟练掌握域策略设置 、DHCP、DNS、FTP服务器 、NTFS 权 限设置等 ;6 、编写网络部分的应用处理预案并实施。
7 、工作认真 、细致 ,积极主动有条理性,具有良好的沟通能力 . 学习参考.专业 .专注 及团队合作精神 . 4.3.5 应用 、数据库管理员职责 :维护建设单位业务系统运行正常,解决应用和数据库故 障 。职位描述 :1、监测业务系统运行状况,应用 、数据库性能监视及优化,作 必要调整 ;2 、规划不同数据的生命周期,制订备份 、恢复 、迁移和灾备策 略 ,根据业务的需要执行数据转换及迁移等操作;3 、保证应用和数据库系统的安全性、完整性和运行效率 。4 、负责数据库平台的整体架构及解决方案的制定和实施;5 、工作认真 、细致 ,积极主动有条理性,具有良好的沟通能力 及团队合作精神 . 4.3.7 终端管理员职责 :维护建设单位桌面系统运行正常,解决终端 、外设故 障 。职位描述 :1、各部门电脑 、打印机 、传真机的维护 ;2 、对各部门职员进行电脑相关的技术支持及培训工作; . 学习参考.专业 .专注3 、精通 Windows XP 及Office 的使用 ,能够熟练使用 Excel2003 、Excel2007及以上版本 ,能够制作相应教程对其他部门 员工进行培训 4.4 运维服务流程IT 运维服务管理流程涉及服务台、事件管理 、问题管理 、配置管 理 、变更管理 、发布管理 、服务级别管理、财务管理 、能力管理 、 可用性管理 、服务持续性管理、知识管理及供应商管理等, 随着运 维活动的不断深入和持续改进,其他流程可能会逐步独立并规范。
. 学习参考.专业 .专注 4.4.1 项目运维服务工作流程图 4.4.2 服务台服务台是支持运维服务的核心功能,与各个流程联系密切。所有 管理流程都要通过服务台为用户提供单点联系,解答用户的相关问 题和需求 ,或为用户寻求相应的支持人员。 . 学习参考.专业 .专注在本系统中 ,服务台是接收各种来源服务请求和相关信息反馈的 唯一入口和出口, 同时服务台还负责一般请求、通过知识库(历史 事件 )能够解决的请求 ;他也是复杂问题二线处理的桥梁。 4.4.3 事件管理事件管理流程的主要目标是尽快恢复服务提供并减少其对业务的 不利影响 ,尽可能保证最好的服务质量和可用性等级。事件管理流 程通常涉及事件的侦测和记录、事件的分类和支持、事件的调查和 诊断 、事件的解决和恢复以及事件的关闭。本系统把所有服务请求和报警归结为事件。事件管理是提供服务 台和事件管理者对于事件记录、处理 、查询 、 审核 、派发等功能 。 它也包括通过和第三方监控系统对接,把其发送报警形成事件的功 能 。 4.4.4 工单管理工单管理 :工单是现场运维 、二线支持的任务载体,运维工程依 据所接收工单进行运维工作。
工单管理是对工单实现创建、变更 、 查询浏览 、派发 、监督等功能的模块。 . 学习参考.专业 .专注 4.4.5 问题管理问题管理流程的主要目标是预防问题和事故的再次发生,并将未 能解决的事件的影响降低到最小。问题管理流程包括诊断事件根本 原因和确定问题解决方案所需要的活动,通过合适的控制过程,尤 其是变更管理和发布管理,负责确保解决方案的实施。 问题管理还 将维护有关问题 、应急方案和解决方案的信息。问题管理是针对已处理事件的遗留问题或处理事件的方案只是治 标不治本的不能彻底解决问题而考虑的模块。根据事件 、及处理方 案 ,问题处理人经过调查 、诊断并提出最终解决方法。 4.4.6 变更管理变更管理实现所有基础设施和应用系统的变更,变更管理应记录 并对所有要求的变更进行分类,应评估变更请求的风险、影响和业 务收益 。其主要目标是以对服务最小的干扰实现有益的变更。变更管理是要对重大资源的新增、变更 、升级等运维活动进行审 核的功能 ,以免这些活动对现有资源的可用性造成没有必要的影响 和破坏 ; 同时 ,他还要实现在工单中产生的变化进行后审计的功 能 。 4.4.7 配置管理配置管理流程负责核实基础设施和应用系统中实施的变更以及配 . 学习参考.专业 .专注 置项之间的关系是否已经被正确记录下来;确保配置管理数据库能 够准确地反映现存配置项的实际版本状态。
配置管理实际上是全部资源的统一管理的功能,包括资源整个生 命周期的参数或配置的变化记录的管理。管理信息主要涉及分类、 型号 、版本 、位置 ,状态 、相关资料等基本信息还包括核心参数等 4.4.8 知识库管理知识库管理 :知识库是提供给运维人员重要的技术资料内容,他 汇集在工作的遇到的典型案例归纳总结的知识要点和全面实用资料 手册 。在本系统中 ,知识库管理提供便于使用的人机接口、快速查 询的技术手段和维护手段。 4.4.9 统计及工作报告运维管理系统提供一线解决率统计、客户满意度统计 、按分类的 事件汇总统计、 工作报告生成的功能, 按照一定格式根据事件数 据 、工单数据 、问题数据 、配置数据 、变更数据可以帮助运维管理 者能把运维的所做的工作内容清晰的罗列出来。 5 、运维服务内容 5.1 服务目标运维项目组提供的运行维护服务包括,信息系统相关的主机设 备 、操作系统 、数据库和存储设备的运行维护服务,保证用户现有 . 学习参考.专业 .专注 的信息系统的正常运行,降低整体管理成本,提高网络信息系统的 整体服务水平。同时根据日常维护的数据和记录,提供用户信息系 统的整体建设规划和建议,更好的为用户的信息化发展提供有力的 保障 。
用户信息系统的组成主要可分为两类:硬件设备和软件系统。硬 件设备包括网络设备、安全设备 、主机设备 、存储设备等 ;软件设 备可分为操作系统软件、典型应用软件(如 :数据库软件 、 中间件 软件等 )、业务应用软件等 。服务项目范围覆盖的信息系统资源以下方面的关键状态及参数指 标 :? 运行状态 、故障情况? 配置信息? 可用性情况及健康状况性能指标 5.2 IT 资产统计服务服务内容包括 :? 硬件设备型号 、数量 、版本等信息统计记录? 软件产品型号 、版本和补丁等信息统计记录? 网络结构 、网络路由 、网络 IP 地址统计记录? 综合布线系统结构图的绘制? 其它附属设备的统计记录 . 学习参考.专业 .专注 5.3 网络 、安全系统运维服务从网络的连通性 、网络的性能 、网络的监控管理三个方面实现对 网络系统的运维管理 。? 设备基础性能检测 :cpu 、 内存使用情况监测 ;? 设备日志查看 ;? 设备 snmp状态 ;? 测试 Ping ,tracert等工具的连通性 ;? 网络安全策略应用是否正常;? Internet 带宽流量的实时监测 ;? 网络拓扑链路状态监测;? 异常网络数据包流量;? Dos 、ddos等网络攻击情况监测;? Internet 线路的误码率 、丢包率监测 ; 5.4 主机 、存储系统运维服务提供的主机 、存储系统的运维服务包括:主机 、存储设备的日常 监控 ,设备的运行状态监控,故障处理 ,操作系统维护 ,补丁升级 等内容 。
进行监控管理的内容包括: . 学习参考.专业 .专注? CPU 性能管理 ;? 内存使用情况管理 ;? 硬盘利用情况管理 ;? 系统进程管理 ;? 主机性能管理 ;? 实时监控主机电源 、风扇的使用情况及主机机箱内部温度;? 监控主机硬盘运行状态;? 监控主机网卡 、阵列卡等硬件状态 ;? 监控主机 HA 运行状况 ;? 主机系统文件系统管理;? 监控存储交换机设备状态、端口状态 、传输速度 ;? 监控备份服务进程、备份情况(起止时间 、是否成功 、 出错告警 );? 监控记录磁盘阵列、磁带库等存储硬件故障提示和告警,并及时解决故障问题 ;? 对存储的性能(如高速缓存 、光纤通道等 )进行监控 。 5.5 数据库系统运维服务提供的数据库运行维护服务是包括主动数据库性能管理,数据库 的主动性能管理对系统运维非常重要。通过主动式性能管理可了解 . 学习参考.专业 .专注 数据库的日常运行状态,识别数据库的性能问题发生在什么地方, 有针对性地进行性能优化。同时 ,密切注意数据库系统的变化,主 动地预防可能发生的问题。
进行监控管理的内容包括:? 数据库基本信息 :文件系统 、碎片 、死锁 、CPU占用率较大或时间较长的 SQL 语句 。? 表空间使用信息监测;? 数据库文件 I/0 读写情况 ;? Session 连接数量监控 ;? 数据库监听运行状态监测;? 查看每日数据备份 、数据同步是否正常 ;? 报警日志监测 ;? 对表和索引进行Analyze, 检查表空间碎片 ;? 检测数据库后台进程;? 数据库对象的空间扩展情况监测; 5.6 中间件运维服务中间件管理是指对BEA Weblogic 、tomcat 、MQ等中间件的日 常维护管理和监控工作,提高对中间件平台事件的分析解决能力, 确保中间件平台持续稳定运行。 中间件监控指标包括配置信息管 . 学习参考.专业 .专注 理 、故障监控 、性能监控 。? 执行线程 :监控中间件配置执行线程的空闲数量。? JVM 内存 :JVM内存曲线正常 ,能够及时的进行内存空间回收。? JDBC 连接池 :连接池的初始容量和最大容量应该设置为相等 ,并且至少等于执行线程的数量, 以避免在运行过程中创建数据库连接所带来的性能消耗。
? 检查中间件日志文件是否有异常报错? 如果有中间件集群配置,需要检查集群的配置是否正常。 5.7 终端 、外设运维服务负责对终端PC、笔记本以及工作站的操作系统、应用软件和硬 件的维护 ,解决使用人员在应用过程中遇到的问题并进行简单培 训 ,完成打印机等其他外设的故障处理工作。 6 、应急服务响应措施运维项目组制定了详尽的应急处理预案,整个流程严谨而有序。 但在服务维护过程中,意外情况将难以完全避免。我们将对项目实 施的突发风险进行详细分析,并且针对各类突发事件,设计了相应 . 学习参考.专业 .专注 的预防与解决措施 ,同时提供了完整的应急处理流程。 6.1 应急预案实施基本流程发现故障一般事件初步判定突发事件已解决启动应急预案,并通知领导按事件流程处理扩大应急未解决增援汇报进度已解决联系技术支持处理突发记录事件未解决应急汇报进度联系开发人员或组厂家工程师现场处理已解决汇报故障恢复总结,修订应急预案 6.2 突发事件应急策略(1 )值班人员平时应做好应急事件的监控工作,对于突发事件 应认真分析 、准确判定故障发生的数据域,负责跟踪该事件直至其 结束 。对于不在运维中心的故障,应在第一时间内通知负责人去现 场处理 ,密切关注事件流程及进展情况,并做好登记工作上报领 导 。
(2 )正常情况下 ,要求值班人员在10 分钟内进行事件确认。如 果属于一般事件则按照事件流程进行分派处理,否则应迅速启动《应 . 学习参考.专业 .专注 急预案 》,并严格按照《应急预案 》所规定的步骤快速实施应急处 置 ,及时汇报上级领导,掌握实时处理情况 。(3 )在处理过程中 ,如需其他部门去现场增援处理,应及时向 上级领导部门汇报,协调沟通 ,尽快联系技术工程师或厂家技术支 持赶赴现场援助处理。 7 、服务管理制度规范 7.1 服务时间(1) 在 5*8 小时工
暂无评论内容