以业务为导向让IT 自动化
- 来源:中国计算机报 smarty:if $article.tag?>
- 关键字:业务,导向,IT,自动化 smarty:/if?>
- 发布时间:2011-04-27 12:50
从手工账簿到财务软件,从柜台长龙到电子银行,从纸质流程到移动办公,IT让业务越来越自动化,越来越高效,但IT 自身为什么不能更自动化些?
什么时候网络管理员能摆脱四处救火的消防员形象?什么时候数据库管理员能够从容应对海量数据的监控、管理?什么时候系统管理员能够吃着火锅、唱着歌,就能确保系统正常运行呢?
自动化必须的
2010 年5 月,第三方研究公司Coleman Parkes Research 的调查研究结果显示,企业的IT 支出呈现出70/30 规则,即与新的IT 计划相比,企业70%的钱都花在对现有系统的运维上。而IT 运维人员70%的精力和时间都花在日常巡检、系统发布、配置等基础运维工作上。
的确如此。在4 月9日举行的自动化:IT 的未来———惠普软件IT 自动化用户研讨会上,一位不愿透露姓名的某国有大型银行技术经理以其数据中心为例向记者介绍,复杂的架构、繁杂的工作、严格的流程、纷繁的系统、众多的管理团队和离散的操作,让系统运维工作占用了大量的资金和人力成本,但实际效果却不怎么样。
因为集中复杂的服务器、网络和存储部署与多点分布的业务应用之间存在大量的相互依赖的关系,在复杂的架构下,“要手工做持续的大量变更非常容易出错,且前后不一致;而在运维组、调度组、安全组等不同的团队及系统之间的调度和协作也因缺乏标准化控制而凌乱;在各自独立的系统视图下对网络、服务器、存储等基础设施竖井式的分离管理也让运维工作不能体现出整体效应。”这位技术经理感慨地说。
一方面,企业既需要用自动化工具替代手工操作,把IT 人员从繁琐的日常运维工作中解放出来,使其不再做重复劳动,可以有更多的时间去做更具创新、更有价值的事情;另一方面,自动化也能解决一旦系统出现问题后,各个岗位互相扯皮、责任不清的问题。
“无论是从人工成本还是系统效率还是支撑业务创新的角度看,IT 自动化都是必然的趋势。”中国工商银行数据中心安全部副总经理敦宏程肯定地对记者说。
光大银行运行管理处项目经理张宪铎也对记者说:“各银行具体环境不太一样,得根据银行自己实际情况综合考虑,在风险可控的前提原则下,自动化应该是个大方向。”
业务导向的运维
“现在很多监控、管理工作是孤立的,网络、服务器、数据库、业务之间不相互关联。一旦业务出现问题,没有一个统一、简单、可控的监控与管理,不能自动化,就无法高效地解决问题。”惠普全球运维管理资深专家Jonathan 在研讨会上以美国大型医疗药品供应商麦克森(McKesson)的数据中心自动化运维为例,介绍了当前IT 运维的现状、难点以及自动化IT的价值。
当然,IT 自动化的价值不只是在于保障系统本身的正常运行、降低运行成本、提高运行效率,更重要的是要高效、灵活地实现IT对业务的支撑,应对加速变化的业务流程,与业务融为一体,不断创新。
惠普软件技术总监于志伟用医院急诊的例子介绍了瞬捷企业对IT 自动化需求的必要性。“一名昏迷的病人被送进急诊室抢救,扫描一下,这名病人的病史、过敏史等所有信息就都展现在了医生面前,医生就可以对症采取急救措施了。在医院,时间就是生命。试想如果没有自动化的IT手段收集、快速查询、传输这些信息,抢救情况会多么糟糕!而单靠人工是不可能做到的。”
另外,他也说,现在企业对CIO 的期望,不再只是保证系统的可靠性和可用率,而是得面向业务,更加敏捷、高效地去适应业务流程,通过IT获取更多的业务机会,增长利润,体现竞争优势。而通常情况下,要实现这些,CIO 还得面临的一个“残忍”现实是并没有新增加的IT预算。还是原来那些钱,但却要做更多事,那么CIO就必须简化IT,通过IT自动化实现创新的目标。
在于志伟看来,IT 自动化分为三个阶段:第一个阶段是单个任务自动化,用自动化工具取代日常手工作业,比如服务器自动巡检、自动化测试应用上线等。这样可以解放IT人力等资源投入到其他创新项目。
这个阶段是目前大多企业都可以做到的。
第二阶段是自动化IT流程。依据ITIL等标准化的最佳实践,实现配置、变更、事件等管理的自动化,将过去要用2~3个小时做的事情现在用几秒钟完成。这阶段是IT 应用相对成熟的金融、电信等行业用户正在做的。而第三个阶段就是要实现服务自动化,比如上线一个ERP 系统、CRM 系统,过去可能需要5 个月,而通过自动化,通过云服务就可以2个小时完成。于志伟说,目前很多企业都已经实现了服务器、网络、存储等基础设施的自动化,而面向业务的流程和服务自动化是大势所趋。
Jonathan 则针对目前IT运维的现状,提出企业先要整合网络、存储、服务器等各自的监控管理平台成一个平台,然后从业务出发,看业务需要落实什么,再将业务与IT紧密关联,并通过恰当的支持体系实现整个运维过程的自动化。
在会上,惠普软件自动化专家陈禾也向与会嘉宾介绍了惠普针对数据库和中间件自动化的DMA解决方案。他认为,针对数据库和中间件自动化的DMA 是基础架构到应用之间的一个连接纽带,是一个非常重要的连接点。
关键是基础脚本库和流程库
已经有两年数据中心自动化建设经验的某大型银行数据中心负责人向记者介绍了他们的经验。
“我们当时做自动化建设的起因是运维工作面临着三大困难:一是随着数据中心的业务发展,运维的规模不断膨胀,管理体系不断增加,但人手却没有增加,有限的人手怎样面对复杂的运维环境是当时最突出的矛盾。第二个困难就是在配置管理部分,因为从系统安装到后期运维的整个运维生命周期内,配置管理信息非常多。作为普通的系统管理员,面对海量的配置要求,如何能一次性地、准确地将信息输入电脑非常关键。第三就是在数据中心的日常项目管理方面,相关软件的部署和运维不能100%覆盖整个系统,总会有5%的系统是没有覆盖到的。这是因为今天的数据中心已经涵盖包括软件、传输、ITM监控等非常多的产品,普通的系统管理员很难完全掌握全部产品的运维知识和技能。”这位负责人说。
如何解决这些困难呢?自动化是非常好的方法。从2009年开始,该行开始了自动化建设一期的建设。立项之初,项目就设立了三大目标,第一是做什么,就是要建立跨平台、面向服务的自动化运维管理体系。第二是怎么做,核心环节是什么,就是要发展不完善的基础脚本库和基础流程库。这两样是其整个自动化运维的核心。“只有把脚本库和流程库规范地建设好后,才能在复杂的环境中推进自动化运维,否则虽然自动化在某些情况下能提高工作效率,还是会带来负面的风险。”他说。
第三就是组织架构,数据中心怎样协调系统部、应用部、运维部、调度部、安全部等各个技术水平不一的部门共同实施自动化,必须得有方法、有制度。“我们不断将自动化的知识、理念、平台的使用方法等做知识转移,让像系统部、应用部等技术能力较强的部门接受自动化工具,同时也协调一些流程管理部门,像安全部、调度部等,让他们的日常工作也越来越自动化。”
经过两年的努力,该负责人介绍,该行已经实现了系统运维的自动化,包括配置信息的收集、系统日常健康检查等,把日常重复、简单、可控的工作,纳入自动化范畴;其次就是实现了一些操作的自动化,比如数据中心网上批量处理的自动化,还有灾备切换的自动化。
他以系统健康检查自动化为例,向记者介绍他们的具体做法:就是将健康检查的标准、规范的前提形成一些脚本,通过自动化运维平台定时地调用这些脚本,生成的报表可以快速地反馈到运维人员的信箱。“当时我们就是每天凌晨大概三四点钟的时候,定时执行这个自动化任务。每天早上九点钟,系统管理员上班打开电脑就可以从他的邮箱里面看到昨天晚上整个系统的运维情况。他就不用再花时间到不同的平台上去检查这些参数,只要对这些报表进行浏览,再对他觉得有疑点的地方做正式的检查和排查。这种运维方式在节省时间和人力成本的同时,确保了系统的可用性,降低了发生问题的风险。”
自动化的前提是风险可控
自动化虽是大势所趋,但记者采访发现,用户对于自动化还是非常谨慎的。敦宏程认为其实银行有些流程环节是必须要人为介入的,不能什么事都自动化。敦宏程认为,要推进自动化,供应商产品的成熟度也是他们要考虑的重中之重。因为他们曾经遭遇尴尬的自动化事件。有个项目中,他们需要部署几百台某品牌服务器,预备采取自动化部署方案,预留的部署时间就很短,结果在第二天要投产之前发现自动化部署有问题,他们不得不把所有人集中在机房,每人趴在地板上连夜手工装机器。“可控性是我们考虑的第一要素。”
北京京东方光电科技有限公司自动化部部长邢明海也表示,出于安全的考虑,需要从效率和控制两方面均衡考虑配比自动化和手工两种方式。
张宪铎认为,自动化和手工会有慢慢转化的过程,就像复杂和简单之间也是在慢慢转化一样。他说,目前对光大银行来说,可以自动化的还是那些常规性、重复性的简单操作,他们现在主要做的还是把相当于眼睛和耳朵的监控工作做到位,通过对基础设施和业务的监控,及时发现问题,保障系统和业务的可用性和连续性。推进自动化的最终原则就是风险可控,在风险可控的前提下把繁琐操作自动化、提高效率是好事,但如果风险不一定可控,就不能冒冒失失地推进自动化。
饭要一口一口吃,路要一步一步走。企业的IT 自动化之旅,得按部就班、循序渐进。
……
什么时候网络管理员能摆脱四处救火的消防员形象?什么时候数据库管理员能够从容应对海量数据的监控、管理?什么时候系统管理员能够吃着火锅、唱着歌,就能确保系统正常运行呢?
自动化必须的
2010 年5 月,第三方研究公司Coleman Parkes Research 的调查研究结果显示,企业的IT 支出呈现出70/30 规则,即与新的IT 计划相比,企业70%的钱都花在对现有系统的运维上。而IT 运维人员70%的精力和时间都花在日常巡检、系统发布、配置等基础运维工作上。
的确如此。在4 月9日举行的自动化:IT 的未来———惠普软件IT 自动化用户研讨会上,一位不愿透露姓名的某国有大型银行技术经理以其数据中心为例向记者介绍,复杂的架构、繁杂的工作、严格的流程、纷繁的系统、众多的管理团队和离散的操作,让系统运维工作占用了大量的资金和人力成本,但实际效果却不怎么样。
因为集中复杂的服务器、网络和存储部署与多点分布的业务应用之间存在大量的相互依赖的关系,在复杂的架构下,“要手工做持续的大量变更非常容易出错,且前后不一致;而在运维组、调度组、安全组等不同的团队及系统之间的调度和协作也因缺乏标准化控制而凌乱;在各自独立的系统视图下对网络、服务器、存储等基础设施竖井式的分离管理也让运维工作不能体现出整体效应。”这位技术经理感慨地说。
一方面,企业既需要用自动化工具替代手工操作,把IT 人员从繁琐的日常运维工作中解放出来,使其不再做重复劳动,可以有更多的时间去做更具创新、更有价值的事情;另一方面,自动化也能解决一旦系统出现问题后,各个岗位互相扯皮、责任不清的问题。
“无论是从人工成本还是系统效率还是支撑业务创新的角度看,IT 自动化都是必然的趋势。”中国工商银行数据中心安全部副总经理敦宏程肯定地对记者说。
光大银行运行管理处项目经理张宪铎也对记者说:“各银行具体环境不太一样,得根据银行自己实际情况综合考虑,在风险可控的前提原则下,自动化应该是个大方向。”
业务导向的运维
“现在很多监控、管理工作是孤立的,网络、服务器、数据库、业务之间不相互关联。一旦业务出现问题,没有一个统一、简单、可控的监控与管理,不能自动化,就无法高效地解决问题。”惠普全球运维管理资深专家Jonathan 在研讨会上以美国大型医疗药品供应商麦克森(McKesson)的数据中心自动化运维为例,介绍了当前IT 运维的现状、难点以及自动化IT的价值。
当然,IT 自动化的价值不只是在于保障系统本身的正常运行、降低运行成本、提高运行效率,更重要的是要高效、灵活地实现IT对业务的支撑,应对加速变化的业务流程,与业务融为一体,不断创新。
惠普软件技术总监于志伟用医院急诊的例子介绍了瞬捷企业对IT 自动化需求的必要性。“一名昏迷的病人被送进急诊室抢救,扫描一下,这名病人的病史、过敏史等所有信息就都展现在了医生面前,医生就可以对症采取急救措施了。在医院,时间就是生命。试想如果没有自动化的IT手段收集、快速查询、传输这些信息,抢救情况会多么糟糕!而单靠人工是不可能做到的。”
另外,他也说,现在企业对CIO 的期望,不再只是保证系统的可靠性和可用率,而是得面向业务,更加敏捷、高效地去适应业务流程,通过IT获取更多的业务机会,增长利润,体现竞争优势。而通常情况下,要实现这些,CIO 还得面临的一个“残忍”现实是并没有新增加的IT预算。还是原来那些钱,但却要做更多事,那么CIO就必须简化IT,通过IT自动化实现创新的目标。
在于志伟看来,IT 自动化分为三个阶段:第一个阶段是单个任务自动化,用自动化工具取代日常手工作业,比如服务器自动巡检、自动化测试应用上线等。这样可以解放IT人力等资源投入到其他创新项目。
这个阶段是目前大多企业都可以做到的。
第二阶段是自动化IT流程。依据ITIL等标准化的最佳实践,实现配置、变更、事件等管理的自动化,将过去要用2~3个小时做的事情现在用几秒钟完成。这阶段是IT 应用相对成熟的金融、电信等行业用户正在做的。而第三个阶段就是要实现服务自动化,比如上线一个ERP 系统、CRM 系统,过去可能需要5 个月,而通过自动化,通过云服务就可以2个小时完成。于志伟说,目前很多企业都已经实现了服务器、网络、存储等基础设施的自动化,而面向业务的流程和服务自动化是大势所趋。
Jonathan 则针对目前IT运维的现状,提出企业先要整合网络、存储、服务器等各自的监控管理平台成一个平台,然后从业务出发,看业务需要落实什么,再将业务与IT紧密关联,并通过恰当的支持体系实现整个运维过程的自动化。
在会上,惠普软件自动化专家陈禾也向与会嘉宾介绍了惠普针对数据库和中间件自动化的DMA解决方案。他认为,针对数据库和中间件自动化的DMA 是基础架构到应用之间的一个连接纽带,是一个非常重要的连接点。
关键是基础脚本库和流程库
已经有两年数据中心自动化建设经验的某大型银行数据中心负责人向记者介绍了他们的经验。
“我们当时做自动化建设的起因是运维工作面临着三大困难:一是随着数据中心的业务发展,运维的规模不断膨胀,管理体系不断增加,但人手却没有增加,有限的人手怎样面对复杂的运维环境是当时最突出的矛盾。第二个困难就是在配置管理部分,因为从系统安装到后期运维的整个运维生命周期内,配置管理信息非常多。作为普通的系统管理员,面对海量的配置要求,如何能一次性地、准确地将信息输入电脑非常关键。第三就是在数据中心的日常项目管理方面,相关软件的部署和运维不能100%覆盖整个系统,总会有5%的系统是没有覆盖到的。这是因为今天的数据中心已经涵盖包括软件、传输、ITM监控等非常多的产品,普通的系统管理员很难完全掌握全部产品的运维知识和技能。”这位负责人说。
如何解决这些困难呢?自动化是非常好的方法。从2009年开始,该行开始了自动化建设一期的建设。立项之初,项目就设立了三大目标,第一是做什么,就是要建立跨平台、面向服务的自动化运维管理体系。第二是怎么做,核心环节是什么,就是要发展不完善的基础脚本库和基础流程库。这两样是其整个自动化运维的核心。“只有把脚本库和流程库规范地建设好后,才能在复杂的环境中推进自动化运维,否则虽然自动化在某些情况下能提高工作效率,还是会带来负面的风险。”他说。
第三就是组织架构,数据中心怎样协调系统部、应用部、运维部、调度部、安全部等各个技术水平不一的部门共同实施自动化,必须得有方法、有制度。“我们不断将自动化的知识、理念、平台的使用方法等做知识转移,让像系统部、应用部等技术能力较强的部门接受自动化工具,同时也协调一些流程管理部门,像安全部、调度部等,让他们的日常工作也越来越自动化。”
经过两年的努力,该负责人介绍,该行已经实现了系统运维的自动化,包括配置信息的收集、系统日常健康检查等,把日常重复、简单、可控的工作,纳入自动化范畴;其次就是实现了一些操作的自动化,比如数据中心网上批量处理的自动化,还有灾备切换的自动化。
他以系统健康检查自动化为例,向记者介绍他们的具体做法:就是将健康检查的标准、规范的前提形成一些脚本,通过自动化运维平台定时地调用这些脚本,生成的报表可以快速地反馈到运维人员的信箱。“当时我们就是每天凌晨大概三四点钟的时候,定时执行这个自动化任务。每天早上九点钟,系统管理员上班打开电脑就可以从他的邮箱里面看到昨天晚上整个系统的运维情况。他就不用再花时间到不同的平台上去检查这些参数,只要对这些报表进行浏览,再对他觉得有疑点的地方做正式的检查和排查。这种运维方式在节省时间和人力成本的同时,确保了系统的可用性,降低了发生问题的风险。”
自动化的前提是风险可控
自动化虽是大势所趋,但记者采访发现,用户对于自动化还是非常谨慎的。敦宏程认为其实银行有些流程环节是必须要人为介入的,不能什么事都自动化。敦宏程认为,要推进自动化,供应商产品的成熟度也是他们要考虑的重中之重。因为他们曾经遭遇尴尬的自动化事件。有个项目中,他们需要部署几百台某品牌服务器,预备采取自动化部署方案,预留的部署时间就很短,结果在第二天要投产之前发现自动化部署有问题,他们不得不把所有人集中在机房,每人趴在地板上连夜手工装机器。“可控性是我们考虑的第一要素。”
北京京东方光电科技有限公司自动化部部长邢明海也表示,出于安全的考虑,需要从效率和控制两方面均衡考虑配比自动化和手工两种方式。
张宪铎认为,自动化和手工会有慢慢转化的过程,就像复杂和简单之间也是在慢慢转化一样。他说,目前对光大银行来说,可以自动化的还是那些常规性、重复性的简单操作,他们现在主要做的还是把相当于眼睛和耳朵的监控工作做到位,通过对基础设施和业务的监控,及时发现问题,保障系统和业务的可用性和连续性。推进自动化的最终原则就是风险可控,在风险可控的前提下把繁琐操作自动化、提高效率是好事,但如果风险不一定可控,就不能冒冒失失地推进自动化。
饭要一口一口吃,路要一步一步走。企业的IT 自动化之旅,得按部就班、循序渐进。
关注读览天下微信,
100万篇深度好文,
等你来看……