观点丨混合架构下构建运维监控平台的设想

图片[1]-观点丨混合架构下构建运维监控平台的设想-JieYingAI捷鹰AI

欢迎金融科技工作者积极投稿!

各抒己见!

投稿邮箱:

newmedia@fcmag.com.cn

——金融电子化

图片[2]-观点丨混合架构下构建运维监控平台的设想-JieYingAI捷鹰AI

本文节选自《金融电子化》2019年02月刊

作者:中国反洗钱监测分析中心 叶钢 孔繁颖 王峰 丁俨

编者按

图片[3]-观点丨混合架构下构建运维监控平台的设想-JieYingAI捷鹰AI

本文首先提出了架构转型的运维挑战以及相关建议,之后重点介绍了运维监控平台的架构设计。

行业现状:随着信息技术的发展,系统架构正逐步由以往的集中式架构为主向集中式与分布式并重的混合架构转型。这一转型,使得运维工作压力进一步加大,突出表现为运维对象数量显著增多、管理难度显著加大、人员要求显著提升等。面对新的挑战,在混合架构下,构建系统运维监控平台,实时监测并及时发现系统的性能瓶颈或故障隐患,将对确保系统稳定可靠运行具有重要意义。

转型给反洗钱中心带来的现实运维挑战

当前,中国反洗钱监测分析中心的信息技术架构也正逐步由以往的“集中式架构”向“集中式与分布式架构并重”转型。在这一转型过程中,系统运维面临诸多挑战,其特点可以用“三个显著”加以概括。

1.运维对象数量显著增多

集中式架构下,由于使用小型机等计算能力强大的设备,系统规模一般较小,运维人员通常只面对几十或者上百台的硬件设备。但在大规模分布式集群中,由于大量采用PC服务器,运维人员面临的硬件设备动辄上千台甚至有可能上万台,量级大幅提升。同时,在分布式集群中部署有众多网络、安全和审计设备,以及大数据平台、云计算平台、中间件、应用软件等大量软件系统。

混合架构下,由于采购、利旧等原因,软硬件设备的厂商各异、类型繁多、运维操作不尽相同,给运维工作带来了新挑战。

2.运维管理难度显著加大

集中式架构下,运维监控通常重点关注核心软硬件系统。

分布式系统将计算能力分散在整个集群中,当某个节点发生故障时,可及时将该节点上的计算“迁移”到其他节点上,提升了容错能力。计算“迁移”能力使得分布式集群大量采用PC服务器等设备搭建硬件环境,以节约建设成本。但由于这些设备稳定性较差,使得集群中的单设备故障率显著提升,管理难度增大。此外,运维人员需要在各子系统的界面上分别进行管控操作,不仅操作不方便而且工作负担重,加之许多设备命令繁多,甚至晦涩难懂,基本不可能掌握全部命令,而遇到问题临时查找相关文档又将极大影响运维效率,等等。

因此,混合架构下,系统高故障率、多操作界面等诸多因素对运维管理提出了新要求,显著增大了运维管理难度。

3.运维人员要求显著提升

集中式系统架构下,硬件、中间件、应用之间界限分明,运维分工也比较明确。

分布式系统运维特性与传统集中式系统截然不同,一是系统组件庞杂,变更频繁;二是技术上软硬件、中间件、应用关联密切。因此,分布式系统对运维人员的要求不再是单一的设备技能,而是应当成为复合型人才,不但要熟悉平台架构与组网,掌握性能和资源效率管理,更要具备一定的系统风险预判能力。

这意味着混合架构下,运维人员要掌握更为全面的专业知识,显著提升了对运维人员的要求。

运维体系建设

为有效应对混合架构带来的运维挑战,需建立一套完善的运维体系,包括运维制度、运维流程、运维组织、运维人员、运维技术平台、运行维护对象等,涉及制度、人员、技术、对象四类因素。只有依据标准化的制度和流程,研发实用的运维监控平台,提升团队规范化运行管理能力,才能保障信息系统稳定、可靠、安全而高效地运行。

1.制度是保障

为保证运维工作的质量和效率,应参考国内外相关运维标准,总结现有的运维管理经验,结合实际场景和管理对象,制订可行的运维管理制度和规范,确定运维管理组织架构、岗位职责、以及各项运维活动的标准流程等,使运维人员在制度的规范和约束下协同工作。

同时,在制度执行过程中,逐步优化改进。通过定期或不定期的审查,完善现有制度或补充新制度,使得各项规范更贴合工作实际,从而建立起长效的运维管理机制,提升运维质量,降低运维风险。

2.工具是辅助

信息系统复杂性和分布性的增加,使得运维部门不得不通过运用运维监控平台等辅助工具,实现系统管理。运维监控平台通过技术手段有效整合资源、固化流程、细化分工,全面采集、合理分析、有效管控各类运维事件,全方位多角度实时展示系统运行状态,使运维工作更加有序,运维数据更加完整,系统状态更加透明。从而能及时发现并有效解决问题,持续优化监控指标,提高运维工作效率,提升运维人员管理能力,节省管理成本,提高运维综合质量。

3.团队是关键

运维工作的顺利开展离不开高素质的运维团队。因此,必须建立合理的运维组织架构,根据其运维工作的内容和流程确定各项工作的岗位设置和职责分工,并按照相应岗位的要求配备不同专长的所需人员,组建一支分工专业、协作高效的运维队伍。只有健全组织架构,不断提高队伍的专业化水平,充分调动各级人员的工作积极性和责任心,才能有效利用技术手段和辅助工具,减少人为事故,提升整体运维能力。

运维监控平台的设计

由于不同的组织其制度和团队也各不相同,因此,本文重点关注运维监控平台的设计。

集中式系统一般规模不大,且相对应用而言每台机器都是一个独立节点,因此,其运维监控平台通常重点关注核心软硬件。

但在分布式架构下,系统全部软硬件被视作一个整体。与传统运维相比,分布式系统的运维监控平台需有更强大的整体监控能力,能实时反映系统整体健康状况。随着分布式系统规模的不断扩大,运维对象数量的不断增加,以及系统间的关联关系越来越复杂,现有系统例行巡检、运维事件处理等日常运维工作效率需要进一步提升。运维监控平台作为运维辅助工具,通过对各项运维工作进行有机组织梳理,采集分析各类运维事件信息,实时展示系统运行状态,固化运维流程,减少人工操作,提高工作效率的同时降低人为因素所引发的操作风险。

运维监控平台架构设计如下图所示。

图片[4]-观点丨混合架构下构建运维监控平台的设想-JieYingAI捷鹰AI

图 运维监控平台架构图

1.采集与处理层

采集与处理层位于平台的最底层,直接与被管对象打交道,负责采集被管对象的运维事件信息,以及将上层操作命令发送至指定的被管对象。

运维数据采集按逻辑可以分为本地采集协议栈和外部接口。本地采集协议栈又分“单向采集”和“双向监控”两种模式。其中,单向采集是指通过SYSLOG等通用协议收集被管对象的运维信息,这一方式仅采集数据,不操作被管对象;双向监控则通过API或者轻量级代理,实现信息采集和运维操作的双向数据流动。外部接口包括灾备运维接口和第三方平台接口等,对接灾备站点和其他第三方平台。

收集到运维事件信息后,该层进一步对各类性能、告警、配置数据集中进行预处理,包括:规范数据格式;根据需要对数据进行拆分、去重;验证数据正确性;替换无效数据,补全缺失数据,保证数据完整性等。处理后的数据和原始数据被一同归档存储,以备今后使用。

采集层有效屏蔽了被管系统的物理异构性和运维信息的数据异构性,从而实现对各运维对象的透明管控。

2.监控层

监控层是整个运维监控平台的核心,负责深度分析经预处理的运维信息,并根据分析结果,实现对主机、网络、存储、数据库、中间件、云资源池等IT基础资源的监控,以及提供应用性能分析、故障报警、故障定位等功能。同时,监控层收集运维知识,形成知识库,为智能化运维打造数据基础。

运维信息经预处理后,监控层首先对处理后的数据进行深度分析。该过程深入被监控对象内部,主动监测分析其运行状态和运行趋势,结合监控指标阈值,提供有效的预警信息;监测网络链路状态,预警和识别网络拥堵事件并分析其原因;监测关键应用的性能和可用性;评估系统安全态势,识别并确认安全风险;从而实现快速有效的性能诊断、故障定位和影响分析,为管理员决策提供依据。

同时,监控层根据分析结果,实时监测主机、网络、应用等IT资源的运行状态、性能和可用性,并将这些信息通过页面显示给管理员,以便管理员实时了解整体系统状态。当监测到系统故障时,该层将反馈故障的主要原因,故障对业务的影响及其严重程度等信息,并触发相应的处理流程。运维管理人员可通过监控层控制所有被管对象,必要时可通过发送指令来操作相应软硬件,达到排除故障或降低其对业务影响的目的。

此外,系统配置信息等基础数据,经预处理后的运维信息,以及运维处置规则等信息,均被存储于运维数据库中。通过不断积累、优化,形成知识,为智能运维提供基础支撑。

3.应用与展示层

应用与展示层向管理员展示运行概览、网络拓扑、故障及影响情况等信息,提供配置管理,拓扑管理,告警管理等运维管理功能,打造统一运维工作平台。

在运维管理方面,该层向管理员提供配置调整、拓扑重构、告警阈值重置等管理功能,协助管理员完成定期巡检、灾备系统管理等运维职能。在展示与报表方面,该层以曲线图、拓扑图、数据表、仪表图等形式展示主机、网络、数据库、中间件、应用系统等被管对象的实时或历史运行状态、关键性能、拓扑结构、告警事件等信息,方便用户直观、多角度了解整个被管系统的运行全局;管理员还可以定制不同的规则,订阅指定IT资源的状态信息。同时,该层提供报表数据,以日、周、月、年为单位统计系统运维数据;也可根据用户要求定制个性化报表;提供报表数据分析工具,实现对于历史数据的按需分析能力,帮助管理员掌握系统运行趋势。

4.平台管理层

平台管理包括平台相关的用户管理、安全管理、审计管理等。

运维监控平台实现多用户权限管理,满足不同级别管理人员共同管理系统的要求,确保多人同时操作而互不影响;通过资源、资源组、用户、角色、权限等属性的设置,对各资源进行分组管理;提供审计功能,使得审计员能对平台的运行状况进行审查,确保平台数据完整性、操作合规性、资源利用有效性等满足相关标准与规范;梳理运维管理核心流程,将其规范化、标准化,明确定义各流程的运维步骤、流程间的关系,以及各运维人员角色定位与责权分配,从而高效解决运维相关问题,提升运维效率。

总结

集中式与分布式并重的混合架构为运维管理体系带来了新挑战。加强对混合架构下运维监控方式方法的研究与实践,建立符合本单位实际的运维管理体系,组建责任心强、分工专业的运维团队,方能确保运维工作有序平稳开展。开发高效实用的运维监控平台,将传统运维工作中大量重复而繁重的手工工作通过软件实现,使得运维人员能有更多精力投入到整个服务的生命周期当中,不断提高IT运维质量,提升运维效率。

《金融电子化》《金融安防》订阅方法:

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享