全文共计3250字,预计阅读时间9分钟
来源 | 本文供稿于“辽宁移动刘宗南、肖惟”
随着大数据、云计算的发展,分布式计算系统逐步取代原有的小型机IT系统,成为重要的生产、分析、运营平台。分布式云计算的发展,大大提升了系统的计算能力,降低了建设费用,并实现了线性扩展,带来的好处举不胜举。但云计算的发展,也为平台的运维管理工作带来了困惑:集群机器数量不断增加,各类运行日志、故障日志呈指数级增长,运维人员淹没在大量的系统日志中,很难快速做出系统运行的状况判断,发现风险,规避故障。
以辽宁移动大数据平台为例,目前集群数量已经超过1400+,存储超50+PB,汇聚B/O/M三域数据34类的,支撑各类业务部门租户近40个,上面承载的应用和数据处理程序更是数不胜数。
NO.1
需求背景
在这种架构下,计算资源、存储资源得到了很好的共享和使用,可根据不同租户的使用需求,灵活调整,快速支撑不同租户的应用建设。
图1大数据租户支撑架构
但这种架构,也为运维管理带来了挑战,是因为平台监控更侧重整体性维护,租户使用只关注自己的程序运行情况,多种复杂情况造成云架构下的运维管理困难,主要表现在以下方面:
1、集群管理困难:大数据架构下,集群数量猛增,虽然在集群的可靠性和容灾方面,分布式计算架构软件有了很大提升,但集群中的运行问题定位、解决方面仍然消耗大量维护人员精力和工作量。
2、租户故障定位困难:在集群发生故障时,系统管理人员还可以快速定位、处理。但租户的使用过程中的问题,有时候在集群监控方面体现不明显,就需要租户开发人员和系统管理人员联合查找、定位和排除,定位耗时较长、处理困难。
3、难以明确界定集群运行问题或程序开发问题:由于平台租户增长迅猛,租户开发团队开发水平良莠不齐,质量难以保证,开发的程序水平高低不一。因此,在程序运行过程中出现问题,难以判断是程序开发质量问题还是平台运行故障。
NO.2
多租户监控体系运维思路
因此,为提升集群运维管理能力,在集群监控过程中,应当考虑集群统一运维和租户运维两个不同层面。
图2多租户运维支撑体系
平台统一运维层面:平台统一运维更多关注平台的整体运行情况、故障处理,包括对平台整体物理资源CPU、内存、存储和平台软件运行情况的数据汇聚、处理、监控,及时发现平台运行情况问题,确保平台整体运行稳定。
租户运维层面:平台为租户提供计算资源和存储资源的同时,将平台运行情况日志按照租户进行区隔,并将租户各自的计算资源、存储资源运行情况(包括队列、任务等)提供给租户监控管理,让租户可以清晰的知道自己平台资源的运行情况,配合租户程序的运行日志,提升租户自维护、自管理能力。
通过以上两个层面的运维区隔,可将平台级运维管理及租户运维管理进行关联,租户问题租户解决,平台问题平台解决,明确运维界面和责任,提升平台运维效率,降低维护工作量。
NO.3
多租户监控运维体系设计
基于以上运维思路,辽宁公司对大数据平台运维进行统一规划,整体规划分为三个层面:
1、信息系统统一管理
以BOMC系统作为资源统一管控的入口,构建大数据平台资源关系模型,实现资源IAAS/PAAS/SAAS层层下钻、深度覆盖,完善主机资源、进程资源、组件资源、应用资源等各层资源管理,从资源管控作为切入点,完善主机资源所覆盖的应用系统、数据库、中间件、操作系统等相关进程监控,从低层操作系统级别到上层应用级别,层层递进的方式,形成完善的大数据平台监控体系,为故障溯源及告警派发的准确度提供基础保障。
图3 BOMC系统监控体系
2、大数据平台运维管理
通过对大数据平台租户的运行指标进行自动化采集,对系统情况及租户使用情况进行实时监控,准确定位租户使用问题,提升租户运行指标实时监控能力和数据资产全生命周期管理,为计算资源和数据资源合理使用提供支撑。主要从以下几个方面进行分析:
(1)租户基础信息: 租户名称、租户归属部门、租户程序数量、租户模型数量
(2)租户集群使用情况:各租户分配cpu、使用cpu、分配内存(GB)、使用内存
(3)租户任务情况:各租户当前运行任务量、当前运行任务占用cpu、内存、前等待任务量、今日完成任务量、今日失败任务量
(4)租户健康度:各租户健康度(通过使用情况计算健康、不健康)、租户总体健康度(00%健康度 = 健康租户数除以总租户数)
图4大数据平台资源监控
在数据资产方面,基于大数据平台数据资产管理体系,对数据资产进行多维度分析及监控,及时掌握数据资产变化情况。展示信息包括:
(1)数据源:大数据平台接入数据情况包括B、M、O三域,接口程序量、数据存储量
(2)数据层次:大数据平台数据存储架构,ods、dwd、dwi、dwa、st,各层存储量、表量
(3)数据主题域:业务主题域、客户主题域、服务主题域等,应用信息包括:重点应用数量、应用模型数量、重点工具数据量、核心产品
图5大数据平台运维监控
3、租户资源运维管理
随着大量租户入驻平台,租户需要对提交的作业进行查看和管理,需要查看分配给租户的资源使用情况。为此,在这个版本中对作业和资源进行了展示、分析和管理。
为租户提供各自计算任务监控能力,支持任务级的运营情况监控,并提供将租户的失败任务日志进行检索和分析,帮助租户定位任务错误,提升租户自维护能力。
技术方案如下图所示:
图6大数据平台租户运维方案
为租户提供到任务级的资源使用监控能力,可让租户自行监控每个计算任务的运行状态,及时发现运行异常和错误问题。
为租户提供计算任务错误日志查询分析,帮助租户人员定位错误任务运行失败原因,改进优化租户任务程序编写,提升租户自维护能力。
租户自维护提供的主要功能包括:
(1)每个队列对应一个租户,按照租户的权限来限定对任务的管理、可见的报表;
(2)查看队列资源使用情况、队列负载分析;
(3)查看任务的运行情况,对任务进行管理;
(4)查看任务的错误日志。
系统提供的管理界面如下所示:
图7大数据平台租户资源监控
通过以上功能提供,可为租户提供任务、队列级别的管理能力,帮助租户提升自己运行任务、队列的监控、故障查询定位能力,大大提升平台的支撑能力。
NO.4
应用效果与结论
1、应用效果
通过多维度监控体系的建设,将系统统一运维、平台深度运维和租户自运维管理,明确各个运维监控管理职责和分工,有效提升运维效率。
租户资源运维管理系统上线前运维人员平均每周都需要花费1天的时间配合租户检查程序运行和资源使用情况,系统上线后这个时间下降到平均每周1小时。
2、结论
辽宁公司通过多级监控体系建设,尤其是加强租户自维护能力改造和优化,在夯实平台统一运维的基础上,将平台维护能力向租户延伸,为租户的资源使用、数据使用、应用开发、故障定位起到了很好的提升作用。因此,多级监控体系的建立,体现了监控集中化和支撑延伸化的双螺旋结构,起到了很好的效果,有效提高了运维管理水平,提升运维人员工作效率。
●
中国移动大数据
致力于打造优质的大数据产品及服务,分享运营商大数据行业动态,信息共享,促进行业内合作交流