1 前言
重庆建设摩托车股份有限公司(以下简称重建摩)是中国兵器装备集团公司下属的国有大型制造业企业,公司源于1889年张之洞所创汉阳兵工厂,发展历程跨越了三个世纪, 成为在中国具有举足轻重地位的大型军工企业,曾先后迎来毛泽东、邓小平、江泽民等党和国家领导人的亲临视察。现已形成年产摩托车发动机200万台、整车200万辆的能力,产品畅销70多个国家和地区。公司信息化水平2011年底达中国兵器装备集团公司信息化A级水平,部分信息化指标达到精益4.0级以上,信息化水平处于行业先进水平。进入2011年后,公司的IT运维管理逐步由传统的粗放型IT运维管理朝“绿色IT运维管理”发展。
2 前期背景
进入2011年以来,重庆建设摩托车股份有限公司的信息化水平发展到了一定的阶段,应用系统已经涵盖了从研发到销售的各个环节,此外还有办公自动化、条码、一卡通、DMS等数十个紧密关联的应用系统。信息系统在企业生产经营活动中显示出越来越重要的地位,生产经营越来越依赖信息系统。随着信息化在工厂的不断深入,我们发现信息化运维的规范、制度、技术手段等管理模式远远落后于信息化的发展速度,新形势下信息系统的运维管理越发苍白无力。其次是每增加一个应用系统就需要相应配套相关的应用服务器,服务器蔓延的趋势越来越明显,从而导致投资不可控,管理难度增大、能耗增高。所以,希望两个方面来提升我们对信息系统管理的能力。第一,建立完善的信息化管理体系,以适应新形势下的信息化运维工作。第二,借助新技术的运用,来提升数据中心的效率,降低投资和能耗。于是,重建摩在2011年7月开始,对信息化管理规范以贴近实际工作的原则进行了大刀阔斧的变革,同时实施了云平台和桌面终端管理项目。拟通过云平台和桌面终端精细化管理的实施,减少IT固定资产的投入而节约投资,降低能耗,努力打造“绿色”数据中心。
3 绿色IT运维管理实践的内涵及主要做法
3.1 绿色IT运维的内涵
此实践以提高公司信息化的运维管理能力,降低公司IT投资和运维管理成本为目标,通过详实而有效的管理规范、制度的建设,建成了运维管理的三级规范体系;通过引进高新技术,如云计算及桌面精细化管理,对其进行二次消化和利用,实现了运维工作效率提升,运维水平上升到更高的层次,大幅降低公司IT新增投资及运维费用的目的。实现节能达10余万度/年的经济效益。绿色、环保、稳定、高效的数据中心已初具雏形。
3.2主要做法
开展此课题主要有以下两部分内容:一是建立新型的符合信息化条件的运维管理体系。二是利用新技术,提高服务器利用率及管理的灵活性,提升管理效率,降低能耗。
3.2.1运用ITIL、PDCA等管理理论,建立信息系统三层级运维管理体系,实现信息系统的动态管控;
建立三级运维管理体系之前,运维管理工作以下几方面的问题或隐患:
·管理制度、规范较零散,不成体系,且许多管理规范都是几年以前建立的,在信息化高速发展的时代,这些规范远远不能满足要求,许多规范和制度不贴近实际,对工作的直接指导性很差。
·因为没有明确规定框架和标准及工作内容,运维管理人员的流程、工作职责、工作内容不是特别明确,导致有时处理问题过程延迟。
·由于没有对工作问题的记录、跟踪、改进、解决等环节,问题处理方式还局限在指哪打哪的救火式解决方式,运维管理人员经常疲于应付各种棘手问题。
·因为没有成体系的标准和指标进行监控,运维工作质量难以得到量化,无法进行考核考评。
·因缺乏固化的工作手册和操作步骤,在信息化行业人力资源变化频繁的形势下,如出现运维人员变化,继任者很难在短时间内快速上手。
如何搭建三级运维管理体系:
·运用ITIL理念,对原有管理规范进行评估、优化,对运维管理规范进行增补、修订、完善。此为第一层级的管理要素。
搭建了信息系统运维管理总体框架,通过对原有的部分规范,制度和操作手册等进行重新评估,祛除相当部分格式化语言,以可操作、可检查、可量化的原则,制定和修订相关管理流程、规范,此类文件作为指导实际工作的方向性文档,与大的业务和业务流程相吻合,规定了在业务流程中运维管理人员应该做什么、怎么做。其主要包含《数据中心运维管理规范》、《重建摩公司信息化系统应急预案》、《IT运维标准工作流程》等20余个管理规范、及流程手册。
·引入全面质量管理中常用的PDCA(戴明环)理论,建立信息系统运行监控指标、信息系统维护标准;此为第二层级管理要素。
第二层级的管理要素就是在第一层级管理规范的框架内,继续细化和衍生,建立起比第一层级相对更细的工作标准、管控指标,此标准和指标,就是为了更好地检查、衡量运维人员的运维工作质量。另一方面,也是重建摩运维管理人员管理数据中心、网络系统、硬件系统的不可缺少的管理要素,利用此层级的标准和指标,能够在实际工作中指导运维管理人员的工作究竟要做到什么程度才算圆满完成。此类指标与标准是根据PDCA(戴明环)方法来建立的,需要我们的工作在P(计划)D(实施)C(检查)A(改进)的各个阶段都要有量化指标,来检查核实运维人员的运维管理工作的质量。
·建立信息系统运维操作流程、操作手册、点检表等控制文档;此为第三层级管理要素。
第三层级的管理要素就是继续深化和细化相关运维操作细则,在重点的工作项上,制定符合实际的操作流程、工作手册、操作手册、点检表格等。这个层级的管理要素与第二层级、第一层级是一脉相承的,而且是不断细化和完善的过程体现。此类手册类、表格类的管理文件,把关重工作进行了固化,明确规定第一步如何做,第二步如何做。运维工作的标准化、规范化管理就体现于此。同时这样也能够把复杂、庞大的运维技术和技能保存下来,如运维工作人员发生人事变动,新的员工能比以往更快的接手运维工作。图1为三级运维管理体系架构图。 (图片)
图1.三级运维管理体系架构图 通过三级运维管理要素的建立,重建摩信息化运维管理体系已初具雏形,同时也发挥了它应有的作用。通过公司内部民意调查和信息化指标的数据体现,公司目前的运维管理工作较1年前有了大幅提高,重建摩的IT设备维修及时率、关重设备故障率、非计划停机时间等指标大幅降低,业务单位人员对运维人员的服务质量和服务态度等均有较高的评价。
建立三级运维管理体系之后,运维管理工作水平得到了明显提升:
·通过梳理原有部分规范和业务流程、新建和修订规范后,建成了三级运维管理规范体系,由粗至细,规范了各个业务流程和操作要领。运维工作的标准化规范化水平得到很大提升。
·运维人员在实际工作中有了可供参考的流程、职责、内容等要素,运维工作进行较以往更顺利。
·因按规范和标准要求建立了问题控制表,定期对问题进行分析,找出易发故障点,运维保障能力大大加强,具备了一定的故障预估能力和问题的快速处理能力。
·运维工作因为管控指标和标准的建立,达到了可以量化的程度,重建摩信息管理部定期发布运维工作的月度报告,可详实记录月度工作量。
·对人力资源的变化,重建摩信息管理部具备了更强的应对措施和能力。有了全新的操作手册和操作指导书,继任员工能在短时间内快速掌握一线运维技能和技巧。
3.2.2引入新技术、新工具,提升服务器利用率,强化终端管理;
·运用服务器虚拟化技术,搭建云服务平台。
通过调研,我们发现通过服务器虚拟化技术可以有效整合数据中心服务器资源,实现服务器利用率提升,同时保障原有的安全性和稳定性,从而达到降低投资和能耗的目的。并且该技术已在全球得到了广泛的应用,在国内也有很多成熟的案例。
a.引进云平台之前的管理状态:
①应用服务器庞杂,一个应用系统必须配备对应的应用服务器。固定资产投资居高不下。
②由于服务器众多,运维管理的难度很大。不能做到统一集中运维。
③由于单个应用在单台服务器上,数据的稳定性和安全性风险很高。
④采购应用服务器时,需要立项、评审、招标、合同等几个阶段,采购服务器时间很长,过程中也耗费大量的人力物力。
针对我公司的实际情况,我们在对比不同的虚拟化技术解决方案后,采用了国际上较为领先的“VMware”软件系统作为重建摩的云平台。其部署的主要步骤为:
①与实施方充分沟通,了解云平台部署细节,制定部署计划,分析在部署过程中可能会出现的问题,制定相应的应急预案。
②对所有的服务器进行性能分析,将性能最好的两台服务器作为云平台的硬件资源,以利于后期最大限度的多部署应用系统。
③对现有应用系统进行分析,确定可以将哪些应用部署在云平台上。通过对比分析,初步确定将原来部署在8台服务器上的8个应用部署在云平台上。
④进行云平台软、硬件系统的配置,分配存储资源,部署前期规划的应用系统。
⑤在保证原应用系统不中断的前提下,对部署在云平台之上的应用进行全面测试。
⑥通过测试后,启用云平台上的应用。图2为私有云平台的架构图。(图片)
图2.私有云平台的架构图 目前为止,已经有上网行为日志、杀毒软件系统、用友CPD系统、BI服务器系统等8个应用系统在虚拟服务器上运行。成功的减少了6台应用服务器的配备。而且2台服务器之间实现了高可用,也就是说,如果其中一台VMware服务器出现故障,另外一台完全可以立即担负起所有的负载,对重建摩业务系统的稳定性和业务数据的安全性提供了有力保障。
b.引进云平台之后的管理状态:
①因为服务器的利用率得到了明显提升,服务器的固定资产投资得到了延迟,节省了大量用于采购服务器的经费。
②系统运维管理人员比以往更方便的管理各种系统。由于界面是统一的,各类服务器的列表一应俱全,随时可根据需要重启和配置服务器。大大降低了服务器运维人员的管理复杂度,提升了管理效率。
③新增一台应用服务器时,只需要在系统中做一些配置。时间可控制在2-3个小时内完成。省去了以往新增应用系统服务器时的立项、评审、招标、合同等环节。大大提升了效率。
④云平台服务器分布在2台服务器上,2台服务器互相备份,具备高可用的特征。服务器硬件损坏并不会导致应用系统停止,数据也不会丢失。数据的安全性和系统可靠性得到了空前的提升。
·部署北信源桌面管理软件,实现终端用户精细化管理
桌面终端精细化管理,是IT运维管理的发展趋势。它将管理的触手从服务器端和网络管控延伸至用户终端设备上。由于用户终端的行为各有不同,大量的不安全性和隐患主要集中在用户终端上,这也是为什么要把桌面终端管理起来的理由。通过桌面终端精细化管理,我们可以从终端的行为、状态、事件三个层面上对终端设备进行管理。及时获取终端的运行状态、安全状态、补丁状态等。可以对杀毒软件、补丁等进行远程自动安装,这一切用户本身是无法察觉到的,换句话说就是不会影响终端用户的体验。可以设置终端设备的USB存储开关,根据需要管理终端USB存储开关状态,可以对终端设备远程关机重启,还能够快速准确的统计接入网络中的终端设备的数量、配置、忙闲度、操作系统基本情况等。利用这个系统,IT运维管理人员就能轻松管理上千台设备,对设备的状态了然于心。
在实施北信源桌面终端管理系统之前管理上有以下问题:
①无法知晓终端设备的状态和行为,终端运维人员手中的设备台账陈旧,无法动态自动更新,终端的不安全隐患较为突出。
②终端的数据外联风险很大,数据可以通过USB端口随意拷贝。数据泄密隐患突出。
③由于无法管理到终端设备,终端设备的管控权全部由终端使用者全权掌控,使用者的素质也千差万别,导致终端设备频繁出现各种问题。
④不能统一的对一些管理策略进行下发,全靠传统的一些通知要求终端需要安装什么软件,不能安装什么软件,但终端用户不这么做也没办法去管控。
重建摩是2011年开始大规模的实施这个系统,通过系统的实施,目前管理了上千台终端设备,对技术中心等关重部门的设备设置了USB存储禁用,这在一定程度上改变了企业敏感的设计数据被随意拷贝的状态,保障了设计数据的安全性。在企业内部,由于经常有用户下班后不关闭计算机,导致电能浪费很大,通过此系统,能轻松把设置自动关机程序,到关机时间自动关机。一年来累计节约电费可达数十万元。具有较高的管理和经济效益。
实施了终端精细化管理系统之后,带来的管理提升如下:
①随时知晓终端行为和状态,自动更新安全补丁和杀毒系统,终端的安全性得到了保证。
②可根据需要不允许某些终端用户使用USB存储设备,杜绝了随意拷贝技术资料的行为,敏感的商业机密泄露渠道大大缩小。
③设备终端的管理权由终端使用的用户转变成信息化运维管理人员,可根据需要设置管理策略,信息化运维管理的触手从以前的服务器或网络延伸到终端设备上。
④可统一管理上千台终端计算机设备,设置统一的管理策略,终端设备的规范化和标准化管理不再是遥不可及的梦想。
4 效果及效益分析
通过一系列管理提升措施,重建摩信息管理部成功建立起三级运维管理体系,通过严密的体系建立,软实力得到了加强,运维管理工作开始逐步由被动应付转向主动管控,具备一定的故障预估能力。通过高新技术的消化吸收利用,重建摩建立了内部私有云平台,建立了精细化的桌面终端管理机制,首次对桌面终端设备进行了管控,这在过去是不敢想象的。
云平台实现了8个应用的迁移:把重建摩公司的一卡通系统、用友CPD系统、DHCP系统、DNS系统、北信源内网安全管理系统、杀毒软件系统、上网行为日志系统成功整合到2台PC服务器上,而且都能稳定的提供服务。节省了6台PC SERVER配置。这6台PC服务器将来就能用来做其他的业务,没有通过服务器采购,实现了服务器的资源整合,而且还调剂了6台富余服务器,根据服务器和机柜的功率计算,一年节约的电能不可小视。
终端设备管控实现了标准化,集约化。管理难度得到了降低,设备故障量较以往下降30台次/月,电能消耗下降了7000余度/月。
具体效益如下:
1、服务器年省电效益=2KW(服务器单台能耗)*6(6台服务器)*24(小时)*365(天)*1.2元(工业用电单价)=126144元。
2、终端设备年省电效益=0.1KW(终端计算机单台功耗)*300(平均300台设备不关机)*12(小时)*220(天)*1.2元(工业用电单价)=95040元
3、节省IT固定资产投资效益=10万元(服务器单价)*6(6台服务器)=600000元。
4、运维管理效率提升效益=100元/人天*30天(平均节省的时间)*6人(平均参与服务器采购及运维的人数)*6次=108000元
5、减少停工时间20余小时=20*12000元=240000元
实施一年来总经济效益为:
126144+600000+108000+95040+240000=1169184元
12/1/2012
|