EasyStack成就OpenStack云平台
- 来源:中国计算机报 smarty:if $article.tag?>
- 关键字:EasyStack,OpenStack云平台,黑龙江 smarty:/if?>
- 发布时间:2016-06-17 11:44
——黑龙江电力建设全核心业务OpenStack云计算平台
近年来,我国能源电力取得了举世瞩目的发展成就,发电装机、用电量、电网规模均位列世界第一。如何响应国家号召,加强供给侧结构性改革,保持持续增长动力,以改善供给体系的结构和效率,是电力行业的当务之急。
国家电网公司全资的黑龙江省电力有限公司(以下简称黑龙江电力),在负责建设、运行维护省电网和保障全区安全可靠供电任务的同时,积极拥抱云计算技术,通过技术创新实现自身的战略使命。
经过审慎的评估、选型,黑龙江电力与在OpenStack领域拥有丰富中大规模企业级实践经验及技术实力的EasyStack合作建起首期即超过200个节点的电力云计算平台。目前,包括营销、财务管控、电能量现代化应用、移动作业管理、全国电力市场技术支撑、电网GIS等业务生产系统均已在黑龙江电力云平台顺利上线,同期上线的还包括大数据分析、数据交换等数据处理系统。整个云平台计划达到700个物理节点,成为电力系统内首屈一指、示范性的云平台系统。黑龙江电力信通公司副总经理赵威表示:“本次国家电网黑龙江公司的OpenStack云平台,实现了计算、存储、网络资源彻底的云化,并将全部业务系统迁移到云计算平台中,在1年的运营过程中,不仅稳定可靠,更大幅提升了运行效率。我们还将在此基础上开展运维自动化相关工具的研究,并与大数据平台相结合。该OpenStack云平台将为黑龙江电力进一步实现业务创新提供稳定灵活、自主可控的基础架构支撑。”
黑龙江电力云平台方案设计
考虑到整个云平台的设计规模将达到700台物理服务器,同时所承载的是电力行业核心生产系统,云平台的可靠性和可用性要求成为首要设计指标。针对这一现状,黑龙江电力公司与EasyStack一道对整个云平台的总体架构进行了充分探讨,对影响整个平台可靠性的关键组件提出了针对性设计与优化方案。
整个OpenStack云平台的高可用主要依赖控制平面的高可用,设计难点在于如何平衡关键服务可靠性与平台可扩展性之间的矛盾,同时从计算、网络、存储等模块优化OpenStack平台消息机制。经过优化后,平台组件间的冗余消息大幅减少,消息转发效率大幅提升,为承载千台规模计算节点打下了基础。
通过HA和云平台的高可靠设计等方案的实施,使之区别并领先于其它OpenStack发行版,可用于承载核心业务的中大规模云计算环境,轻松应对电力系统传统与创新的业务挑战。深入优化计算、存储和网络性能,从KVM、OVS、Ceph等最底层技术开始源代码级优化,最终提供接近物理硬件能力的计算、存储和网络性能,为黑龙江电力各个核心业务系统提供了高性能、可靠的服务平台。
计算虚拟化
通过实施OpenStack云计算,可以按照黑龙江电力各个业务所需的计算能力的规模,将各个业务部署到合适的物理设备中,有效整合物理机资源,提高资源利用率。通过每个VM隔离应用,保证单个VM的资源需求得到满足。在单台物理机故障或宕机的情况下,将业务系统按计划迁移到其他物理机或者尽快在其他物理机恢复,保证SLA,降低业务连续性风险。通过与黑龙江各个业务系统应用软件集群相结合,实现整个业务系统的高可靠性、高连续性、快速扩展性。
在黑龙江电力云平台方案中,使用OpenStack、Centos、KVM这样的开源软件可以避免厂商锁定,对几乎所有的x86服务器均开放,同时对MySQL、Oracle、Weblogic等数据库和中间件应用服务器也能开放性的支撑,达到自主、可控的目的,同时降低软硬件的CAPEX(资本支出)和OPEX(运营支出)。
分布式存储Ceph
鉴于运用商业存储的一些问题,同时考虑黑龙江电力业务系统对性能和可靠性,扩展性的要求和设备环境现状,尽量避免由于实施需要采购新设备、增加部署工作量、延长云平台方案实施周期等,只要对目前设备环境做少许变更即可实施。
黑龙江电力采用开源技术实现的分布式存储Ceph,并使用Cinder作为后端存储,实现了统一存储,提供对象存储、块存储及文件系统的支持、无任何单点故障,数据多份冗余,存储容量可扩展,自动容错及故障自愈,并支持快照、备份、恢复,支持QEMU及Libvirt虚拟化等功能。
黑龙江电力在实际部署时,通过对SSD极速、HDD高容量两个资源池的OSD的设置,完成了3份数据副本的支持。基于Ceph的分布式高性能存储方案,极大地提高了云主机的IO性能,足以应对各种苛刻的企业应用需求。黑龙江电力云平台可以在10秒内完成一台云主机的创建,支持实时快照,对硬盘快照的操作耗时不超过2秒。
由于数据量增长迅猛,黑龙江电力在方案部署期间进行了多次存储扩容,在扩容过程中,由于数据量较大,为保证不影响已上线业务的正常运行,通过降低Ceph Rebalance优先级的方式,在不影响业务的情况下,实现了存储的在线扩容。
网络虚拟化
为了满足业务对网络性能和扩展性、可靠性的需求,此次虚机网络没有通过L3 Router转发,而是直接连接至对应VLAN网关,来保证用户实际的使用性能与感受。最终方案通过使用VLAN+OpenVSwitch方式配置网络,合理分配不同网络平面的流量。
通过多个网络节点,实现公网的负载均衡及HA、高性能和高可用,网络节点使用Router级别的Active/Standby方式实现HA,并使用独立的网络路由监控服务,确保网络HA的稳定性。
OpenStack云环境运维
大规模集群的部署涉及资产管理的问题,黑龙江电力方案中所有物理机机器均已登记在册,并在机架的固定位置标号。EasyStack安装工具Roller为指定固定IP地址,保证新集群部署完毕之后与现有资产表保持完全一致。后期运维同样可以使用Roller灵活扩展集群规模。
此外,黑龙江电力云平台实现了公司内部IM平台(合创圈)的自动化部署,运维人员仅需发送文字,即可实现交互,完成部署。此外,方案中还运用了自动运维、巡检脚本,来定期设置与执行运维任务。
在黑龙江电力方案中,一旦物理机、OpenStack服务或Ceph集群出现异常,Zabbix均能监控到并自动报警,将报警信息以短信、微信的形式发送到相关运维人员的手机上。通过与EasyStack的Zabbix监控集成,实现现场大屏幕、指示灯显示,以及自动化短信发送。
黑龙江电力对OpenStack安全主要从权限管理和网络安全管理来控制对云平台安全的保证;实现对OpenStack各个组件之间的API调用进行身份识别;通过用户、租户或项目(角色)控制服务消费者对各个服务资源的访问权限。
此外,黑龙江电力还运用OpenStack实现三层分级账户权限管理,为不同权限级别的用户呈现不同的导航界面,支持每个业务项目组来部署与修改自己的虚机。
电力+互联网 拥抱云计算正当时
目前,黑龙江电力云计算平台共计部署物理主机272台,完成营销系统、财务管控、PMS2.0、电力交易、GIS平台等80%系统迁移。营销系统已连续运行13个月,运行效率提升近30%,100%业务系统完成上云。营销月结时计算时长从原12小时缩短到72分钟,效率提升900%;营销系统合账报表耗时从原1小时47分钟缩短到4分钟,效率提升2575%;高峰页面访问响应时长由6~8秒缩短至1~2秒,效率提升300%。
借电力云平台的搭建,黑龙江电力还完成了Hadoop平台搭建,实现离线数据分析;以在线统一日志分析平台实现对服务器、网络设备、安全设备、数据库、系统中间件、权限管理系统、端设备的日志收集,及对即时通信系统信息进行分析。EasyStack创始人、CEO陈喜伦表示:“新技术的采用和不断进步,离不开一批值得感谢和钦佩的客户和CIO、架构师。他们有远见和魄力,敢于率先采用新技术推动创新和业务变革,黑龙江电力就是中国OpenStack企业实践的先行者之一。EasyStack很荣幸能服务这样的客户。”
■本报记者 赵明