运维工作由于其特性,导致量化困难、工时检查复杂、跟踪处理周期长。然而,本案例将展示如何利用研发云有效管理运维团队,提高运维团队效率。这一方法在不增加人工成本前提下,显著提高了运维团队的工作效率。
案例描述
背景:国际公司自研团队长期使用DevOps开发流程,并从2021年起开始使用研发云。自集团在“上云四平台”工作中要求使用研发云后,自研团队致力于在公司内部的开发项目中推广研发云的使用,并取得良好效果。在上云工作中,我们遇到了IaaS/PaaS运维工作的精细化管理问题:日常工作比较难于量化、难于类似开发工作来检查工时;交付工作分配后,一个工作项的处理时长跨度大、跟进与管理相对困难。
在上云的大背景下,交付工作和运维工作的技术界限并不明显。国际公司作为专业公司,云池规模并不是特别大,因此交付工作和运维工作均由一个团队承担。我们尝试将运维工作分为专项类(具备确定性、非持续性等特征,有明确完工目标、工作量、工作计划,如组件实例开通/OS升级/CTyunOS替换/漏洞修复等交付工作)和日常类(具备不确定性、持续性等特征,有日常计划、指标目标,但无明确工作量,如日常主机巡检/组件巡检/故障处理等维护工作),并尝试使用研发云作为项目管理工具,将上云工作中的运维部分也管理起来。让研发云不仅仅专注于上云的Dev部分,也可以延伸到上云工作中的Ops管理部分,持续地服务于上云系统,在系统的整个生命周期都得到有效管理。
类型:运维类。分为专项类、日常类,两类工作分别管理。按我们已遇到的工作项, 专项类可细分为: 1)实施交付:如节点建设、网络打通、批量主机开通、批量组件实例开通、OS替换; 2)迁移工作:系统迁移、数据迁移、组件实例迁移; 3)安全工作:交付前的安全检查、新组件/新产品的安全验证; 日常类可细分为: 1)IaaS类:IaaS管理、IaaS巡检、故障响应; 2)PaaS类:PaaS管理、PaaS巡检、故障响应; 3)安全类:OS安全、实例安全、应用安全等工单响应;
人数:以CTA PaaS平台作为试点项目,交付与运维均由一个团队承担,共6人。按角色,分为项目经理1人,架构师1人,IaaS/PaaS/安全工程师4人。
方式:敏捷,使用工作项中心对运维团队进行过程管理,将需求按照长篇故事(Epic)、特性(Feature)、用户情景(User Story)和任务(Task)进行分解,在定期的项目例会中确定冲刺(Sprint),并管理、考核。
问题:运维工作的性质决定运维团队由远程和现场人员组成。国际公司PaaS运维团队分布在不同地点办公,支撑的地点也各不相同。例如,CTA PaaS工作,就是由国内(北京+深圳)和美洲公司(LA+DC)人员共同承担,IaaS使用混合云(vm私有云+AWS),PaaS使用集团云翼平台(独立部署方式)。在使用研发云之前,运维工作的管理采用在线表格形式,专项类工作采用事前登记,之后分配给具体的人员,日常类工作采用事后补登记。这种方式存在一些问题,比如不方便查看每个人的工作安排,不便于按照指定周期查看每人的工作量。我们借鉴了敏捷的理念,沿用了研发云进行开发项目管理的经验,使用研发云的工作项功能来管理运维工作,切实解决了上云工作中,运维工作管理的问题。切实提升了人员在多个工作项中的复用效率、加强了工作进度和问题关闭的及时性。
项目实施细节
使用研发云管理PaaS运维工作,具体实施步骤如下:
1、新建项目,创建项目团队;
2、选择工作区过程模板,选择标准模板即可;
3、新建工作项,对于确定性任务拆分成:长篇故事Epic、特性Feature、用户情景User Story和任务Task,并建立关联关系;
4、建立迭代计划,以周为单位创建迭代计划,添加用户情景和任务到迭代计划,并指定实施人;
5、运维人员接收到任务,根据任务的优先级以及任务时限要求完成任务,当任务状态有变化时及时更新任务状态;
6、对于不确定性工作,采用事后补登记:管理员新建任务,分配给指定人,添加到本期迭代,实施人员事后补登记;
7、统计报表,通过自定义报表关注任务完成情况;
效果和成果
使用研发云后,任务拆分更加细粒度,任务也更方便地指派到人,通过制度要求每个人在任务完成后变更任务状态以及登记工时,对于管理人员来说,工作任务的状态:如待开始、处理中、已完成任务一目了然,同时,也能清晰地知道哪些任务有滞后,存在风险。另外,通过工时的登记,很方便的评估每个人每项工作用时,从而判断每个人的工作饱和度,以便下一步的工作安排。因此,使用研发云切实解决了工作进度管理、风险管理的痛点,也提升了问题关闭的及时性,和以前通过Excel管理项目相比,项目进度更加可控,人员效率有了约15%的提升。
运维人员实际是复用在多个工作项中,工作任务安排有序,也就提升了人员在多个工作项中的复用效率,实际提升了单位人效,达到了增效的目的。我们在团队人员未增加的情况下,通过管理要效率,将效率提升省下来的时间额外完成了CTA PaaS平台的交付与运维工作:一套云翼平台+10套控制台+18套实例。
使用研发云的文档空间,实现团队各成员之间文档共享,降低了通过社交软件传递文件频率,从而减少信息泄露的可能。另外,通过共享文档,实现PaaS组件知识共享、实施方案共享、故障处理方案共享,当有需求时,通过查阅共享资料,同样问题可以做到快速解决,避免重复劳动,在使用研发云后,故障平均处理使用时长缩短约20%。
截图和演示
待完成工作项
迭代计划
自定义表格:任务进度跟踪
文档空间:实现团队内的资料共享
技术挑战与解决
由于运维工作存在诸多不确定性,如因封网等原因计划改期,导致迭代计划中的任务无法按照计划完成。
改进思路:1)迭代周期从一周改成一个月,计划改期往往只是推后几天,本月的计划往往本月能够完成;2)对于确定要完成但不确定时间的任务,暂时先不放入迭代周期,待时间明确后再添加。
团队合作与协同
在上云工作中,由于PaaS运维工作存在很多临时增加的工作项,会导致某个时期一部分运维人员工作非常饱和,一部分运维人员工作相对宽松。对于这种情况,将每个时间片(任务)的工作内容标准化,输出操作手册,即可以实现运维工作标准化,比较顺利地实现标准化运维工作的分发、转派,平衡运维团队各成员的工作量。
暂无评论内容