目录
IT运维管理面临挑战
随着企业IT服务多样化发展,IT应用的规模也越来越庞大、IT应用的结构也越来越复杂。随着不断变化的IT应用,需要越来越合理的模式,来保障IT服务能灵活便捷、安全稳定地持续保障,这种模式的保障因素就是IT运维管理。
据国Gartner网站2013年调研结果显示,在IT 费用中大约有1/2 用于系统运营期的运维管理工作。
即使当前企业在IT运维管理方面投入大量时间及费用,但是在IT运维管理方面仍存在诸多问题。主要表现为:
经验未沉淀为实际运维工作,经验利用率、推广率低;分散于各服务器上的运维脚本,存在管理风险,且耗费大量管理成本;日常操作消耗大量人力资源,误操作风险较大,操作执行效率低; 操作与执行方案匹配度无法保证,实际操作过程可控度较低;日常操作对人员水平要求高,人力资源风险大; 实际操作不便于监督,存在“黑盒”操作风险;日常工作与实际操作无法有效关联,不利于日后审计; 应运而生的自动化解决方案
面对IT运维管理中的诸多问题,单靠人工已经无法满足在技术、业务等方面的要求,那么标准化、自动化、架构优化、过程优化等降低IT服务成本的因素越来越被人们所重视。其中,IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
IT运维自动化从诞生发展至今,其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。自动化对IT运维的影响,已经不仅仅是人与设备之间的关系,已经发展到了面向客户服务驱动IT运维决策的层面。
中煤信息技术有限公司运维部借鉴IT运维自动化发展趋势,结合多年IT服务经验中对用户需求的把控,自行研发自动化解决方案。
自动化方案概述:
通过自动化手段,实现IT运维管理操作的自动化调度、“一键式”处理;通过异常处理的支持,对操作的结果进行验证,并持续监控作业执行结果;通过时间约束条件,对按照时间计划执行的运维作业进行管理;通过复杂的关系运算条件,处理复杂的作业流程的关系;通过UserTasks人工接口,方便运维人员对作业调度流程的参与;通过图形化的工作流定制平台,实现对业务活动进行整体规划;通过与其它平台的集成,实现了与报警、监控等运维系统的一体化管理。从而实现功能强大、简单易用、安全可靠的作业调度自动化。
通过自动化解决方案,推动了企业IT运维管理操作的指令化、标准化、流程化进程。
自动化建设目标:
自动化运维应用场景 灾备切换自动化
随着IT设备数量持续增加,IT系统日益复杂,依靠手动方式进行系统灾备切换的传统模式遇到了一定瓶颈,主要表现:
通过对灾备切换流程进行标准化配置,实现灾备切换管理的配置可视化、执行可视化、过程可视化、规程可视化。
传统IT监控系统在故障发生时能及时告警,但是运维人员、厂商、开发商仅仅获得一条告警信息,无法从监控平台获取更多的信息完成故障分析及预防。
通过监控/监控集成、作业调度双重技术手段,在故障发生时,对故障现场的本机环境、跨服务器/跨设备环境进行全方位捕捉,对故障现场进行最大程度的保留,协助管理员、厂商、开发商进行事故后的详细分析,并设定相应预案。
通过故障现场快照,可以完成:
故障现场全方位场景获取,获取内容可以根据不同角色需求灵活定制;故障发生时系统自行完成场景捕获、保存,并将其分发给不同的角色进行联合“会诊”;根据预案内,通过定制化纳入到中,实现故障发生前的预警,并且提供及时处理,避免故障再次发生。 批量设备操作自动处理
随着IT规模不断扩大,IT设备数量不断增多,原有简单的运维操作,也随之成倍增长,即增加了运维工作量,又使重复性操作过程中,由于人员注意力降低导致的操作失误次数成倍增长。
例如:对设备批量程序更新、批量巡检等、批量密码修改等大批量、重复性操作。
提供批量作业并行处理平台,实现多设备同时批处理操作。通过自动化流程把,将简单的操作在大批量设备上操作,并对作业执行过程进行监控对执行结果进行检查。
通过部署批量设备操作流程:
1、批量设备并发执行,缩短批量操作执行时间,提高执行效率,并且提高系统升级一致性;
2、减少批量操作过程中,由于实施过程中因操作人员操作疲劳、注意力降低导致的误操作,从而减少人工失误导致的生产系统故障;
3、提高IT运维自动化水平,减少人工投入,降低运营成本;
周期性作业自动调度
随着IT应用系统不断上线,运维中周期性、重复性操作逐渐增多。此类操作即占用了运维人员大量日常工作时间,又存在人工误操作的风险。并且对于复杂作业流程,还需要运维人员有较高的技术水平及较高的系统熟练度,由此增加了因人员、岗位变动导致的而操作意外发生几率。
例如:可以对每日巡检、日终批量操作、事务数据收集、月结批处理、年结批处理等作业执行的自动化。
提供统一应用运行操控平台,实现跨平台、跨作业段、跨设备的作业协同调度操作。平台将周期性、重复性批处理作业,以及庞大复杂的作业流程,固化为自动化作业流程,通过时间调度引擎,按照既定时间规则,在指定时间点进行调度。从而实现作业的周期性自动化调度,运维人员仅需查看相应的作业执行过程、执行成功与否、执行结果报告(截图、操作命令输出结果等操作结果信息)。通过自动化流程把成百上千的批处理作业组织起来,规范跑批作业,对作业执行过程进行监控对执行结果进行检查。
通过周期性作业调度自动化:
1、降低了关键岗位的技能要求:过去,必须由全面掌握各业务系统的运维专家完成各类批处理作业的操作和判断;现在,普通运维人员即可使用自动化工具完成。
2、消除故障隐患、保证作业效率:一方面,对关键数据的完整性、合规性进行校验;另一方面,在发生异常时快速定位故障数据源,以便排查。
3、降低日常运维工作中人员的时间投入、精力投入,从而将运维人员解放出来,投入到更重要的IT运维工作中。
应急处理流程自动触发
IT系统发生严重故障发生时,时间就是金钱。一方面,如何缩短管理员接收通知到故障处理时间;另一方面,如何缩短故障处理过程花费的时间,并提高故障处理成功率,显得极其重要。
例如:文件系统满,导致新的日志无法写入;数据库归档日志空间满;数据库表空间满,数据无法写入;生产系统故障,需要紧急切换备份系统等。
自动化处理与监控告警集成,第一时间发现,调用预定义的故障应急处理流程;故障处理后,系统会调用检查流程,对故障恢复情况进行检查。全部操作完毕后,系统会将故障发生现场镜像、故障处理结果、处理完毕检查确认结果,一并发送给管理员,由管理员确认整个流程执行无误。
通过应急处理流程:
1、极大缩短了从故障发生到故障响应的间隔,为系统恢复赢得了宝贵的时间,从而极大的减少了系统故障所产生的影响;
2、管理员在应急故障处理过程中肩负着极大的压力,精神高度紧张,可能会产生处理流程顺序颠倒或者忘记某一环节等现象,并且存在压力下导致操作失误的可能,由自动化平台应急处理,一方面提高了故障处理过程中的操作效率,一方面提高了故障处理的成功率。
3、系统自动将故障发生的现场镜像、故障处理过程、结果以及故障恢复后的检查结果,以报告形式保存下来,为今后审查、统计提供了依据。
重要配置备份、基线比对
IT系统中配置文件非常重要,因为误操作导致配置文件被删除、内容被修改,经常会导致非常严重的后果。日常运维工作中,管理员需要花费大量的时间,对系统中包括操作系统、数据库、中间件、应用系统及其他软件的重要配置文件进行周期性备份,并且配置文件被误修改、恶意篡改时,不容易被发现,只有当产生严重后果才会被人们注意。
重要文件例如:Oracle的initSID.ora, listener.ora文件, sqlnet.ora文件, tnsnames.ora文件,操作系统/etc/passwd文件,以及Weblogic、应用系统等配置文件。
通过基线保护模块,帮助企业建立信息系统的安全基线,并持续监控关键文件和系统的完整性和一致性。平台定期对企业中各层面、各级别配置文件进行周期性备份,并以此建立文件基线。平台会定期对系统中配置文件修改日期、大小、内容等进行扫描,并将扫描结果与基线版本进行比对,当发现两者不一致时,及时通知管理员进行审查,并在极端情况以基线版本为准则,对现有环境进行备份、更新。
通过文件基线管理功能:
1、系统自动对重要配置进行备份,极大减轻了管理员日常工作压力,并且减少了备份过程中的遗漏情况发生;
2、系统通过自动扫描、对比,发现配置异常,改变原来配置文件修改不易发现的缺点;
3、系统自动恢复被篡改的配置文件,从而完全避免了因配置文件修改导致的重大故障;
4、保证两地三中心主备系统的配置信息一致性。
方案目标 运维脚本集中管理
日常运维工作中,管理员积累了丰富的运维知识,并将部分整理为运维脚本,方便日常运维管理工作。
提供运维脚本集中管理功能,将日常大量零散的运维脚本集中管理、统一下发。既实现了日常运维脚本的集中存储、统一版本控制,也实现了自动下发、批量下发、批量更新。同时特有版本管理功能,可以清晰统计各Agent端运行的脚本版本情况。
可视化流程配置引擎
各种运维操作,都有其一定的业务逻辑关系。流程定制化,就是将这些看似零散又有着复杂的逻辑关系的应用操作以一种常态化固定下来。例如:灾备系统启停操作、数据库启停操作,都是由多个操作步骤、操作指令按照先后顺序执行完成。自动化运维管理平台先将这些零散操作节点化,然后将这些代表每个操作单元的节点以一定的业务逻辑关系定制成可执行流程,甚至流程里面也可嵌套子流程或者引用已有流程的以满足各种庞大的业务逻辑需要。
提供了类似Visio可视化配置界面,通过鼠标点击和拖拽方式,轻松完成各类复杂流程制定工作。
作业流程人工干预
日常运维工作,对于复杂操作流程,需要部分人工干预工作。例如:灾备切换演练过程中,柜台签退确认、演练参与人员签到;重要作业任务执行前,多人复核确认;核心系统自动化任务执行前,人工录入鉴权信息等。
在作业流程执行过程中,提供图形化人工干预界面。以便管理员在流程执行过程中,进行执行复核确认和重点信息人工录入工作,提升作业流程执行安全性。
作业执行验证/持续监控
日常运维作业执行完毕,需要确认作业执行效果。且部分行业监管机构要求,系统投产变更后,需对系统进行3~5天持续监测,确保系统变更后稳定运行。
提供检查/监控作业功能,在自动化作业执行完毕后,对作业执行效果进行检查、验证。并在一定时间内对系统运行状况进行持续监控,保障业务连续性。
作业操作手册自动生成
提供操作手册自动生成功能。针对每个自动化操作流程,自动生成操作手册。记录每个操作流程的操作指令、操作服务器、操作账号、操作说明、操作流程。保障运维操作内容清晰化、透明化,同时保障自动化操作内容与日常运维操作手册同步化。
作业执行结果展现
为系统管理员、运维操作人员、管理者等不同角色提供不同角度的运维视图。
配置备份/基线库管理
基线保护模块(简称文件基线保护软件)帮助企业建立信息系统的安全基线,并持续监控关键文件和系统的完整性和一致性。
基线检查−为文件系统建立基线数据库,并持续监控文件系统的变更。
数据备份−为文件系统建立完整备份。
实时告警−创建基线和备份文件系统时通知、文件系统被篡改和恢复时告警。
变更恢复−及时恢复被篡改的文件系统。
暂无评论内容