本节书摘来自华章计算机《云数据中心构建实战:核心技术、运维管理、安全与高可用》一书中的第1章,第1.5节,作者:杨欢 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.5数据中心管理与运维
电子设备如果缺乏良好的管理机制,会加快其淘汰的步伐,而高效、合理的运维可以使电子设备长久保持一颗年轻的“心”。在数据中心整个生命周期中,管理和运维是耗时最长、持续性最久的一个环节,我们需要清楚地了解运维需要实现的目标和管理的范畴等诸多方面。
1.5.1数据中心管理运维目标
业务系统可以快速、稳定、持续的应用,这是应用层面所要达到的目标,在数据中心的生命周期中的管理运维更为全面,更具有针对性,我们需要满足四个目标。
1)连续可用性。数据中心的各个模块、功能组件每年都会有计划性维护和潜在的非计划性维护。非计划性维护过程中或许会造成业务系统的中断,这将导致业务系统不可使用,企业信息系统的连续性受到破坏。这就要求数据中心管理运维过程中监控各组件的运作指标,发生异常状况是通过自动或者手动的管理进行系统间的切换,保持信息系统连续可用性。
2)完整合规性。数据中心对服务、系统、数据都要严格符合国家颁布的各项法律、法规等,不允许有任何违反相关规定的状况出现,提供公有云服务的数据中心针对涉外企业时,还需要遵守使用国和国际通行的法律、标准、准则等。所有的管理运维过程必须有相应的书面或者授权的电子记录,可以接受企业信息内部审核以及第三方审核。
3)指标量化性。因数据中心投入较多,故也有人称之为企业的成本中心,究其原因就是在传统数据中心对IT的投入和产出没有良好的量化指标。需要建立一套完整的财务核算机制,明确数据中心目前和未来所要实现的财务目标,通过核算、会计等手段找出管理运维的成本高点,并做出可行性变更。对提供的信息系统、存储资源提出按需计费模式,将信息成本分摊,再通过量化的数据呈现给CIO、CTO、CEO,均衡成本让企业的成本中心更为明确,也为日后的管理运维奠定基础。
4)自助服务性。传统数据中心是以“设备”为中心进行管理,随着企业信息化的逐步发展,以“用户”为中心的模式正在崛起,管理人员只需在服务端建立相应的平台,用户即可通过电脑、笔记本,甚至Windows Phone 7、Symbian、iOS、Android等移动平台进行自助应用。数据中心管理和运维的焦点会逐步转移到服务后台,通过构建管理框架和流程来满足用户的需求。
这四个目标为管理和运维指引了方向,涉及每个层面、每个资源,我们需要有一套完整的机制来采取针对性的措施。
1.5.2数据中心管理运维范畴
为维系企业信息系统的正常运转,数据中心部署了太多的硬件、软件、系统、服务,从内部环境、基础设施、网络资源、安全管控等诸多方面都需要全面的管理和运维,接下来我们了解数据中心生命周期内都有哪些环节需要我们来管控。
内部环境的管理和运维
非授权人员不能进出数据中心,即便是授权人员也只能在授权范围内进行规定操作,这就需要将数据中心的区域进行划分,主要分为进线设备区域(ENTRANCE ROOM)、主要分布区域(MDA)、水平分布区域(HDA)、设备分布区域(EDA)和区域分布区域(ZDA)五大区域。
进线设备区域:用于存放ISP专线、光纤以及接入线缆;
数据中心内部的区域划分和布线子系统的划分有一些相互重叠的地方,比如水平分布区域和水平布线系统,但是它们有着本质的区别。布线子系统关注的是整个企业网络,不管是数据中心还是远端的客户端都需要考虑;而数据中心区域的划分则更注重内部的建设和管理,并通过授权的操作管理运维人员的使用权限,避免进入非授权人员在不正确的地点做出错误的操作。
基础设施的管理和运维
首先,需要对设备进行关键分级,要知道核心交换机的关键程度远远高于UPS电池组中的一块电池,所以关键等级不仅为管理运维指明方向,也会使我们的侧重点更加清晰。
接下来需要明确责任,对交换机、服务器、基础供电、冷却等系统的权责进行明确划分,指定相关运维人员和监督人员,避免越权管理。
基础设施的计划性的运维必须严格按照时间安排来操作,并填写维护人员的信息、操作的内容、反馈的结果等,对于紧急的、临时的、非计划性的运维,除填写上述信息外,还需要分析运维行为发生的原因、处理的过程与结果、应对方案和故障规避方案等。
系统资源的管理和运维
数据中心逐渐向虚拟方向靠拢,下一代数据中心高度虚拟化的应用将更突出,一台物理服务器虚拟多个系统,或者多个物理设备虚拟一个虚拟服务都将成为常态,单一的物理设备出现了硬件层面的损坏会对整个数据中心造成损坏吗?
如果集群环境、备份措施部署到位,单一物理设备损坏不会对整体造成太大的冲击,但我们不能忽略的是,设备的损坏势必会造成其承载的系统瘫痪,如需保证联系连续性则必须通过自动化的迁移将虚拟系统转移至负载较轻的主机中,这就需要平台有足够的管理能力。
系统资源的管理和运维需要依靠平台来进一步强化,不管是软件级的还是系统级的补丁,升级程序都由平台来完成修复;所有的资源都以池化的视图呈现给管理人员,方便管理人员统筹部署;各种资源调度、系统迁移、负载均衡都可以依靠平台自动的智能服务来完成,物理的、虚拟的、同构的、异构的系统同样如此。
网络资源的管理和运维
对于整个网络需要有完整的拓扑结构,当新购置的交换机接入网络或者报废的交换移除网络时,网络拓扑结构都需要及时变更,并且所有的网络操作必须有指定的网络工程师来完成。事前需要有全面的测试,事后需要呈报操作日志,设备增减完毕后更新网络拓扑结构,并予以存档、备案。
对于网络的访问权限,需要进行严格的划分,数据中心关键设备、企业高层领导、开发人员、办公人员、生产人员以及外来人员等,需要部署网络虚拟化将不同的设备或者人员划分到逻辑子网中。
网络资源的管理还可以利用智能布线系统,当不明线路接入网络中可以第一时间发现并处理,同时还可以依靠智能的网络扫描生成网络拓扑,智能地规划MAC过程表。
安全管控的管理和运维
设备也好,系统也罢,如果脱离了安全管控将会造成很多不可预见的麻烦,安全层面的管理和运维会涉及很多方面。
权限的设置在任何环境下都是非常有效的,门禁系统、网络设备、服务器都需要严格的权限区分,谨防有意识的或者无意识的破坏;不安全的上网行为需要通过路由器、防火墙、IDS、IPS、上网行为管理协同办公;网内的病毒需要系统补丁和网络版杀毒软件来预防和清除;同时所有的操作都需要有相应的日志,以便后期的审核与追溯。
运维和管理并非一朝一夕,在数据中心生命周期内,这些工作需要持续性地进行。企业的信息需求会随着时间的推移越来越多,对数据中心的要求也会越来越严格,管理、运维工作要根据不断变化的信息需求来进一步深化和改进,未来的IT领域不会是“单兵作战”模式,更多的联系、更多的共享将是未来数据中心的发展方向,云技术也在潜移默化地改变数据中心当前的管理行为。
1.5.3数据中心的运营要求
不管是CEO,还是CTO,再或者是企业用户都会认为数据中心只是“企业成本中心”,就是因为数据中心只有大手笔的资金投入而看不到实质性的收益。
这只是早前的概念,随着虚拟化的深入发展、绿色数据中心的渐行渐近、按需服务的推广、面向应用的程度越来越高,成本中心的概念逐渐远去。在未来,我们的数据中心将会拥有这样的特征。
合理布局
初入某个100m2的小型数据中心,我们或许会看到整齐的机架、规范的布线,还有合适的温度,但是如果将这个数据中心扩大几十倍,就会发现无数的机架难以管理,分布的线缆杂乱无章,甚至温度都会变得相当复杂。
很多数据中心的管理人员也知道复杂性给数据中心的管理和运维会造成颇多的麻烦,前期的规划很充分,但是随着设备的不断增加会打乱数据中心整体的部署。为了避免这种状况的发生,需要在数据中心建设阶段就进行良好的规划,对未来10年的设备增幅进行预估,这可保证新设备进驻数据中心时不会破坏原有环境。
对于大型数据中心可更倾向于“集装箱式”,线路的引入、电力的支撑、冷却的资源都经过完善的设计,每一个集装箱内部都有独立的机架模型,增加、减少设备只需要在集装箱内部进行操作,如更多的设备需要进驻数据中心,可以启动新的集装箱来予以应对。这样能加快部署,同时运维管理更简单,数据中心的布局也会更加合理。
高管理性
早前的管理需要奔波于各个服务器之间,后来KVM的流行使得我们操作服务器只需要面对一套输入、输出设备,但是这只能算是资源的统一和优化,并没有形成管理的统一。
在现代数据中心中,不管是物理的平台、虚拟的平台、同构的平台、异构的平台不再是单点运维而是将所有的平台整合到一起,通过统一的平台对资源池进行规划和管理。当所有的资源得到高效组织以后,应用和服务的管理开始发生“质”的变化,以往应用独占资源的模式被打破,在数据中心中资源的开始实现自动化,奉行按需动态伸缩原则,托管的资源超过了设置的系统阈值,平台自动增加资源,反之则较少;在海量数据方面,管理平台将所有的资源虚拟、池化,采用高容错、高并发I/O等机制,面对PB级数据存储也能灵活面对。
物理、虚拟的统一管理、自动化、按需动态伸缩、海量的非结构化数据、多租户架构的管理都是现代数据中心高管理性的体现。在未来,随着云技术的深入发展和应用,数据中心的管理会更加统一,资源利用效率也会大幅提升,而管理的易用性和便捷性也会更加人性。
高可用性
《ANSI/TIA-942》标准规定Tier IV级数据中心的可用性为99.995%,也就是说计划性的维护和隐匿的非计划维护造成的停机时间不超过10分钟。这在传统的机房环境下是不可以想象的,但是对于高可用性,没有人有“恐高”心理,可用性能达到100%更是每一位IT管理者希望看到的。
然而,没有人,也没有设备能保证可用性能达到如此高度,我们只有尽可能地提高这一指标,供电系统建设冗余的、多路的方案,并辅以第三方的发电系统保证电力资源不会中断,内部环境可以采用多种冷却技术,消防方案部署气体灭火系统,同时整个数据中心都在严密的监视之下,设备的安全有了良好的保护。
在应用与服务方面,不管是服务器、存储、网络都以虚拟化的形式抽象出来,通过平台将所有的资源整合到一起,以资源池的形式予以呈现。同时虚拟集群的高度应用,将所有的资源进行全面的整合,对物理故障域、预留容量、扩展单元整体考量,当单个节点出现问题时,平台会将这个节点虚拟迁移,保证业务流程不会中断,并且这个过程都是依靠平台自动完成,所以说数据中心在应用层面的可用性要远远高于传统的机房。
在数据中心内最不受控的就是自然环境,这也是数据中心不敢宣称100%高可用性的一个因素。然而随着技术的发展,公有云、私有云、混合云的发展,未来企业管辖内所有的数据中心都会关联到一起,届时云数据中心的高端应用会让可用性有更深层次的提高,6个9(99.9999%)、7个9(99.99999%)的可用性指标相信也不再是梦想。
高安全性
安全涉及领域很多,关键基础架构的安全、服务器的物理安全、虚拟系统的安全、网络的安全、通信的安全、数据的安全……
这些安全需求或许是通用安全性方面、信息保密性需求,也或许是服务保障性需求,数据中心需要在安全防护方面做很多功课。
对数据中心的全面监控保证了物理方面的安全,一旦发生火灾等异常危险可以迅速、自动地采取气体灭火行为。在授权方面,数据中心几乎在所有的环节都有相应的权限分配,从进出数据中心的门禁系统、各设备的操作,到虚拟服务、业务流程的分配和使用,到网络虚拟连接、虚拟交换、再到存储的资源调用,甚至电源的开关都有非常详细的权限指派,非授权人员在数据中心内无法执行任何操作,更谈不到破坏了。在应用层面,面对病毒、黑客的潜在威胁,数据中心防火墙、网络版杀毒软件、WSUS、安全策略都在加固安全防护措施。随着云技术的发展,SCCM的应用将会使整体的漏洞修补、程序升级变得更加智能,不管是物理环境还是虚拟环境。最后,在审计方面,数据中心的强大日志可以找寻定位到任何不安全的行为,并作出应对。
数据中心的设备至关重要,企业战略向信息化方向发展必须全面提升数据中心在硬件、软件、数据、环境等层面的安全性。
高可靠性
数据丢失导致的最终后果会是什么?
美国得克萨斯州大学的统计结果显示,只有6%的企业在数据丢失后继续存活,43%的企业彻底关门,另外51%的企业在两年之内消失殆尽。
2001年9月11日,美国世贸中心双子大厦轰然倒塌的场景历历在目,灾难发生前,世贸大厦中的企业约有350家,事故发生一年后,依然在运作的企业只有150家,其他200余家企业因为关键数据丢失,永远留在了历史的记忆中。
数据的传输与保存要绝对的可靠,相对于传统的机房环境,数据中心已经发生出了很多变化,设备与环境的整体安全提升也使数据的可靠性大大增强,然而数据的高可靠性还需要更多方面的体现,数据中心会有一套全面的备份和恢复工具,可以对宿主主机、虚拟主机、运行的数据库进行在线或者离线的备份和还原操作;可以对系统或镜像进行快照,并在危险情形出现时进行回滚操作。中小企业可以将服务、应用或者数据交付到公有云,公有云平台会对数据进行跨地域存储,保证数据的绝对可靠,大型或者超大型企业可以在多个城市建立数据中心,再通过私有云将所有的数据中心进行逻辑的联系,所有的关键数据可以实现异地存储和备份,即便发生不可抗力的自然灾害,也可以通过其他数据中心的数据回滚迅速恢复。
高可靠性为数据中心提供了持续性的数据保护,对于内部或者外部的灾难都可以从容应对。
绿色节能
全球气候变暖是个不争的事实,国际、国家、企业都将绿色、低碳、节能作为首要实现的目标,数据中心的众多硬件设备已经开始走向绿色路线,从服务层面和应用层面,很多传统的IT角色都在转变,平台化的管理让我们规划出更多的可用资源,也潜移默化地减少设备投入,这是好的开始,但是这些算是技术层面的绿色节能手段。在意识层面,同样需要做着更加深入的努力。
举个例子,数据中心最合宜的温度是多少?18℃,22℃,26℃?将中央空调系统统一设定为20℃低温,这样似乎便于管理,但是长期的低温运行会浪费大量的电力资源。
事实上,数据中心的温度范围有合理的区间。当步入一个超大型的数据中心时,你会感觉到温度的不同,在这里不会为网络配线机柜配置过多的冷却资源,对于刀片服务器、机架服务器我们会感觉它们身处的机柜温度更低,同时温度的导流和利用更加充分。在这样的数据中心内,会感觉到温度的差异,但是各个环境的温差并不会显得突兀。
这就是资源的合理利用,只要温度控制在夏季22±4℃、冬季18±4℃,湿度控制在40%~65%,电子设备的工作状态就会处于最佳模式,可以将温度予以分散,似乎这样的温度设计更合理,延长了设备的使用寿命,也使冷却资源消耗的电量大大下降。
这只是绿色节能的一个简单缩影,在目前以及未来的数据中心环境,成本的压力始终伴随着数据中心的生命周期,我们需要长期的应对措施。
降低成本
对于满脑子数据、公式、指标的CTO来说,如果只用嘴和他讲虚拟化的优势、服务的成本、资源的最优利用……劝你还是尽早放弃吧!企业高层会考虑数据中心的运营状况,但是更多的是希望以数字化的报表来实现。
服务器虚拟化项目将早前的1000台服务器抽象为50台服务器,成本的优势一下呈现出来,同时还会传导到其他支撑环节,电力系统的要求会大大减少,数据中心的温度也会呈现着大幅缩减的态势,这两者的耗电量会直线下降,年节约60%甚至更多。
虚拟化存储将所有的资源予以整合,容量和用户体验得到了保证,同时避免了周期性的存储硬件设备购置成本,根据设备购置频率、存储容量很容易计算出虚拟化带来的巨大收益。
通过云计算平台还可以做得更为精确。
按需服务,可以计算出哪些服务占用了大量的服务资源?这些资源占用是周期性的还是临时性的?IT管理人员是否可以预判到这些状况的发生?如果将这些服务进行细化,就可以进行针对性的按需服务,当资源需求较低时,可以通过策略或者指令将服务的负载进一步降低,成本的节省会很可观。
而对于企业内部门、用户服务评测,可以评估部门层和用户层的资源消耗程度,这样就可以计算出“谁”才是真正的成本中心,紧接着进行详细定位并有针对性地解决,这不仅能降低资源的使用程度,也会使SLA大大提升。
降低成本,是未来数据中心将要持续提出并改进的环节,通过上述模式可以很清楚地计算出成本的分配状况,并为进一步提升信息战略提供可靠的基础数据。