作者
中国银行信息科技运营中心
宋瓷婷 王鹏 陈祥博
分布式转型背景下,传统运维模式面临巨大挑战,急需针对性开展创新转型。中国银行运维团队以多年积累的实践经验为基础,总结提炼了分布式运维管理方法论,并配套搭建异构系统运维管理平台,加速推动以数据驱动的智能运维体系建设。本文在详细阐述异构系统运维管理平台设计思路的基础上,以告警风暴收敛、运维知识库、故障自动处置等功能为例,分享了平台典型的应用场景,以期为金融同业提供参考和借鉴。
近年来,面对国际形势变化以及互联网企业架构带来的启发,商业银行纷纷开启分布式转型,同时其信息系统架构也呈现出集中式与分布式并存的特点。在此趋势下,IT运维团队不仅要继续承担传统集中式大型主机平台平稳运行的运维职责,又要做好未来分布式运维的技术储备,尤其在大型主机技术相对封闭、向分布式技术栈迁移难度较大的情况下,如何顺利实现运维技术转型成为当前面临的重大挑战。与此同时,在集中式和分布式并存的复杂架构下,只有让运维能力具备与运维对象松耦合的可迁移性和普适性,才能更好地适应银行信息系统技术不断更迭的现状和趋势。
针对上述变化,笔者团队以多年积累的运维经验为基础,总结提炼了分布式运维管理方法论,并配套搭建异构系统运维管理平台,创新开展了以数据统一采集与标准化治理为基础支撑、以标准化产品组件为控制接口、以即插即用的工具平台为共享服务、以运维需求为应用场景的落地实践,逐步推动运维模式从“事件驱动”向“数据驱动”转变,推动平台建设从“需求功能实现”向“通用运维能力沉淀”转变。
一、异构系统运维管理平台
架构设计
面向分布式转型趋势,笔者团队将新技术手段与管理流程优化相融合,着力推动以数据驱动的智能运维体系建设,并创新搭建了异构系统运维管理平台(如图1所示)。该平台基于多维度运维数据,在屏蔽底层运维对象复杂性的基础上,重点实现了标准化数据治理与规范化接口调用,旨在迭代推动运维模式向可视化、自动化和智能化转型。平台设计重点强调了三项基本原则:一是相对独立,即将复杂的运维能力建设拆分为相对独立的服务建设,通过规范接口,实现平台间、模块间的相互调用协作;二是能力复用,即使每一个开发过的功能模块在之后的能力建设中能够被最大程度被复用,进而降低成本、缩短时间,实现乘数效应;三是闭环设计,即通过将人的能力和机器的能力统筹考虑,最终实现数据、分析、决策、处置的操作闭环与事前、事中、事后的流程闭环,并借此持续推进自动化、智能化转型。
图1 异构系统运维管理平台架构设计
基于上述原则,异构系统运维管理平台重点打造数据治理、控制接口、共享服务、应用场景等四大功能模块,并在其中内嵌了“数据驱动、预防为主、应急为辅”的预防性维护闭环流程。其中,数据治理功能重在实现对异构运维对象数据的统一采集、存储、归总,控制接口功能重在实现对异构运维对象的统一控制操作,共享服务功能重在将常用的数据分析服务集成为通用工具,应用场景则是指根据事前、事中、事后的应急闭环迭代流程落地具体的运维场景,并以统一门户全景展示异构运维对象的实时状态。
1.数据治理模块
异构系统运维管理平台的运维对象涉及大型主机平台、AIX平台、X86平台等多个并存的异构系统,每天有大量源数据存储需求,数据的类型、格式也千差万别。对此,笔者团队首先在数据治理模块中搭载了数据字典,并据此标准化数据采集工具,最后基于数据仓库统一存储的治理策略,搭建了主机性能容量平台(TDS)、大数据平台(BIGDATA)、配置管理数据库(CMDB)三大平台作为数据治理的主要抓手,建设标准化的平台数据资源池。
以主机性能容量平台为例,该平台重点实现了对主机性能指标(SMF)数据的统一结构化存储与管理。实践中,TDS首先是按照系统、存储、数据库、交易中间件、消息中间件、批量等组件划分方式,分条目建设性能指标体系,再基于指标体系抽取了685个常见的性能指标作为采集对象,每一类组件设计有单独的采集解析脚本,收集数据互不影响,且采集的数据会统一落入DB2和MySQL数据库。
在此基础上,作为支持上层应用的数据资源,该平台还重点搭载了三个典型应用:第一部分是系统的健康检查,帮助运维人员快速掌握系统运行状态,发现潜在的性能问题;第二部分是关键指标的容量预估,通过分析指标的长期变化趋势,提前预估基础环境中的容量问题,做好容量规划,保障生产资源的弹性扩容;第三部分是事后问题诊断,通过对底层多维度的指标关联挖掘,平台集成有波动分析、趋势分析、对比分析等多个分析模型,用于根因的快速分析定位。
2.控制接口模块
为实现对异构平台的统一自动化调用,控制接口模块中搭载了中国银行自主研发的自动化运维管理平台——MOMA。MOMA通过将常见运维操作进行标准化打包,可实现对异构运维对象的统一控制,并基于工作流编排、调度和交互控制等功能,支持用户在网页端定义一系列相互关联的指令作业,并按照事先约定的执行流程进行自动执行与实时追踪,从而实现一套流程、集中控制、重复使用,显著降低了管理成本和差错率。
MOMA平台通过标准化接口实现主机平台和开源平台对接,彻底改变了主机平台的闭源特性,使传统主机平台拥有了丰富的可视化界面。同时,在变更任务的拆分过程中,通过开发大量能满足平台接口调用规范的主机平台作业流,全面覆盖了自动化控制、智能判断等功能,并共同组建了主机自动化运维脚本库。未来,伴随着MOMA平台的演进和发展,主机平台的自动化运维能力也将不断提升,而主机接口标准化建设则为异构运维对象的集中自动化调度铺平了道路。
3.共享服务模块
基于相对独立和能力复用等设计原则,共享服务模块作为对接数据与应用的通用服务层,主要负责将运维场景常用的展示能力、分析能力、决策能力等集成为即插即用的服务,以避免功能重复开发。目前,共享服务层重点建设了指标展示大屏、时间序列分析平台(Horae)、主机日志分析平台、机器学习算法库等作为通用服务工具。
其中,时间序列分析平台利用统计分析和机器学习算法,可对具有规律性的性能指标数据进行精细化分析和价值挖掘,从而为上层应用场景提供任一性能指标数据的趋势预测和异常检测服务。同时,该平台通过将时间序列分析中常见操作封装为Horae平台命令,支持用户使用配置文件输入命令和参数信息来调用服务。截至目前,Horae平台内已集成有10余种时间序列分析算法,并支持算法的动态弹性扩展,能够很好地覆盖运维中常见的序列类型。
4.应用场景模块
应用场景模块通过将团队门户作为统一入口,基于对告警、日志、生产问题、性能指标等运维数据的挖掘分析,实现了包含数据、分析、决策、处置在内的操作闭环与覆盖事前、事中、事后的流程闭环。例如,该模块基于告警风暴收敛、日志风险诊断、容量预估等功能可实现事前风险感知,通过运维知识库、异常检测、自动处置等功能大幅提高了事中处置速度,以及结合问题跟踪、根因分析等功能实现了事后闭环迭代。
二、异构系统运维管理平台应用示例
1.告警风暴收敛
传统运维方式下,运维团队通常会根据重要性和紧急程度从高到低将告警分为红、橙、黄、蓝四个等级。从告警数量来看,每天以重要程度较低的蓝色告警居多,因其包含了许多不重要的提示信息,所以很容易被运维人员忽视。鉴于此,告警风暴收敛的一项重点工作即在于对蓝色告警进行再分级,并最终从海量蓝色告警中筛选出真正有价值的风险。蓝色告警再分级如图2所示。
图2 蓝色告警再分级
为实现上述目标,笔者团队利用机器学习算法围绕告警风险指数展开了统计分析,其核心思想是抽取系统平稳运行时出现的蓝色告警历史数据特征,并将其作为风险等级较低的正样本数据,同时将新出现的蓝色告警与历史一段时间的正样本数据进行比对,当一条蓝色告警的发生次数、告警内容等特征与历史情况趋同时,说明该告警风险等级低,而一旦与历史情况差别较大时,则说明可能发生了异常情况,需要重点关注。
基于上述思想,笔者团队结合TFIDF文本分析和Kmeans聚类算法,对每条蓝色告警的风险指数进行了实时计算,并将其依次分为“99999、1000+、100+、10+、1+”五个风险等级,以辅助运维人员合理分配注意力,对风险等级高的蓝色告警予以重点关注,实现精细化区分告警风险等级的目标。结合实际应用来看,偏离历史一般规律越多的蓝色告警的风险指数越高,而这一结果和运维经验相吻合,可有效助力运维人员及时发现潜在风险。
2.运维知识库
运维知识库旨在实现处置方案的快速查找,从而有效提高事中的应急速度。按照传统的文档库建设思路,通常很难保证文档版本的动态更新,且使用时也往往需要进行复杂的检索操作才能定位解决方案。为弥补上述不足,运维知识库基于“有警必有解”的建设思路,将告警信息作为知识库统一入口,点击任意一条新出现的告警信息,均可链接到运维知识库中针对该告警的具体解释和处理手段,从而实现了对每一条告警的快速应对。
此外,为保证运维知识库的完备性,异构系统运维管理平台利用关键字技术对告警的关闭操作和知识库的录入操作实施了强关联,即工程师想要关闭告警就必须将解决方案录入知识库,从而实现了历史经验的固化积累;同时,为保证每一条处置方案都能对应到可操作层面,还为其专门建立了后评价反馈机制,即由一线值班工程师在实际使用后进行评价反馈,将有问题的解决方案登记到问题跟踪,由二线处理并更新知识库。
3.故障自动处置
目前,运维自动化主要指监控告警自动化与处置操作自动化两个方面。传统运维方式下,告警自动化产生后,通常需人工查找自动化脚本或工具提交执行,且事中处置同样需人和机器协作完成。对此,异构系统运维管理平台通过内嵌自动处置模块,力求打通监控和执行环节,即在无人参与的前提下,根据告警信息找到对应的处置方法自动执行。
异构系统运维管理平台基于MOMA和主机自带的自动化工具集,可将日常运维的手工操作转化为由自动化脚本组成的归档集成,并针对具有固定处理方式的告警信息,抓取关键字触发脚本进行自动化处置,从而为日常运维提供了自动化的预防性维护能力。以高亮信息处理场景为例,高亮信息是大型主机特有的从路由到终端的提示信息,作为监控领域的一大痛点,运维人员每天都需要处理大量的高亮信息,尤其在应用批次投产等特殊时段,甚至一天内会出现20余万次,运维人员很容易在高亮风暴中忽略关键信息。针对上述难点,当利用异构系统运维管理平台的自动处置功能进行高亮信息治理后,绝大部分高亮信息实现了系统自动回复,使需要运维人员关注的高亮信息减少了80%以上,有力提升了运维效率。
三、总结和展望
综上所述,本文介绍了一种面向分布式转型的运维管理方法,并基于此方法建设了异构系统运维管理平台,不仅为预防性维护方法论的落地实现提供了一种可参考的平台框架,而且为异构运维对象的统一管理维护奠定了能力基础。与此同时,该方法通过在异构系统运维管理平台中构建标准化数据资源池,为实现运维数据的深度挖掘和多维分析,以及将来引入更多智能分析决策模块奠定了坚实的数据基础。此外,平台建设过程也是人才队伍向分布式转型的过程,为实现分布式系统运维提前储备了技术力量。
展望未来,笔者团队拟重点从两方面对平台进行持续优化:一是随着银行数字化转型的逐步深入,控制接口、数据治理、共享服务等模块的通用性设计能否适应分布式架构下的大规模运维场景还有待检验,而应用场景模块的各项功能也需要在实践中不断调整、丰富;二是结合人工智能等新技术应用,尝试在数据、分析、决策、处置的闭环操作流程中尽可能减少人工参与,力求实现更为彻底的自动化、智能化运维转型。
本文刊于《中国金融电脑》2022年第11期
联系我们
投稿 | 电话
010-51915111-816
010-51915111-818
投稿 | 邮箱
fcc@fcc.com.cn
市场 | 合作
010-51915111-813
010-51915111-812
暂无评论内容