新浪机房率先尝“甜头”——英特尔至强E5 v3来袭

  • 来源:中国计算机报
  • 关键字:新浪机房,英特尔
  • 发布时间:2014-10-08 13:04

  9月,英特尔至强处理器E5 v3产品家族的发布如约而至。号称会在软件定义基础设施的时代“发挥核心作用”的至强E5 v3和上一代产品相比,又创下了27项性能纪录。3倍的性能提升,内核数据与高速缓存容量增长50%,首开先河支持DDR4内存,以及更强的能效和安全特性,通过遥测技术进行监控、管理的新特性等变化,无一不在驱动各行业数据中心进入“转型期”。早已开始对至强E5 v3展开测试的新浪机房,已经率先成为受益者之一。

  机房成本降20%

  “和上一代平台相比,至强E5 v3的性能提升能让新浪机房的成本下降20%。”在测试阶段,新浪网研发部运维支持经理刘明生已经感受到了这次至强微架构更新所带来的回报。

  新浪的数据中心采用模块化设计,每次基础架构的升级主要是节点升级,所以每当英特尔产品更迭期到来时,新浪在采购前期所关注的重点很大程度上是TCO和业务时延的改变。在对至强E5 v3进行测试时,刘明生和他的同事就发现,对比过去的产品更迭,这一代产品的更迭成本发生了很大变化,TCO明显降低,收益甚至能“直接看得见”。

  据刘明生介绍,新浪的Hadoop平台在基础架构上一直采用一核一盘的配置策略。以前如果采购12个核,用上一代产品至强E5-2620 v2,就需要两颗CPU。但现在,由于英特尔至强 E5-2600 v3每插座多达18个内核,还拥有45MB末级高速缓存,在内核数量与高速缓存容量方面实现了50%的性能提升。虽然单点的采购价稍有上浮,但新浪只需采购过去一半数量的CPU,就可以完全满足现有业务的要求。经预估,机房服务器的采购成本至少可以下降20%~30%,而服务器数量的减少还会让功耗也随之降低10%~15%。

  刘明生告诉记者,这次产品更迭,E5的性能/能耗比与上一代产品相比每瓦特性能提升了20%,超过了15nm到22nm制程精益演进而带来的性能提升幅度,这说明英特尔的微架构创新正在发挥更大的作用。

  隐性收益多

  刘明生介绍说,除了“看得见的收益”, 至强E5 v3还为新浪的数据中心带来了不少“看不见、算不清的收益”。例如,至强E5 v3新增的高速缓存监控特性可反馈数据,支持协调工具智能部署和重新平衡工作负载,新浪机房的整体部署速度明显加快;新增的用于探测气流和出口温度的热传感器,正在大幅增强新浪数据中心的可见性和可控制性;由于英特尔高级矢量扩展指令集的进一步扩展(英特尔 AVX2),将整数敏感型工作负载的矢量整数指令每时钟周期的带宽增加了一倍,性能比上一代产品又提升了1.9倍,整机特性和体验都有了积极的变化。

  新浪机房采用集中供电、集中散热的模式,这种模式对能耗监控要求很高,必须进行精细化管理。由于CPU过热时会自动启动降频保护功能,但运算速度下降就会导致业务迟延,所以机房一旦出现局部过热的问题,必须立即通过加风扇或调整空调制冷能力的方法消除热点,以免造成业务影响。刘明生和他的同事用了很多工具和方法,以便及时发现这些过热区域、了解运算速度下降的情况,及时做出调整,保持业务的一致性。但现实中,依然时常出现因发现不及时、数据采集有误而造成的业务时延。测试时,刘明生就发现至强 E5 v3和上一代产品相比,其内嵌的更为强大的监控与管理功能竟然可以彻底解决这个问题。现在,通过英特尔的节点管理器,他们可以轻松且及时地发现热点,并轻松做到功耗的控制和管理,让机房的工作温度达到合理的水平,实现精细化运维。没有节点管理器时,是很难做到精准运维的。

  刘明生表示,至强 E5 v3的这些变化又为新浪数据中心的改造、运营带来了很多可能。他们现在就在做一些新尝试,比如借助节点管理器提供的API,实现自动化降频或降低功耗等。还有,将锂电作为小型UPS,用于机房和服务器供电等。精细化控制、管理机房的能耗问题,以及进一步缩短开发周期、减少开发阻力。

  本报记者 卜娜

关注读览天下微信, 100万篇深度好文, 等你来看……