服务商、监管者、用户 云服务“宕机之囧”谁埋单

  • 来源:通信产业报
  • 关键字:Twitter,富士通,亚马逊
  • 发布时间:2015-10-14 14:43

  刚刚过去的一个月几乎成为云服务的宕机黑色月。

  8月末富士通、9月初Twitter、9月7日Nest、9月20日亚马逊AWS、9月21日Skype,不同程度的云计算宕机给这个使用者带来的影响和损失就像多米诺效应。云服务宕机难免发生,追究原因对用户而言无济于事,事后的损失赔偿似乎显得苍白无力。当下“云服务7×24小时永不掉线”成为云服务商营销必备的口号,各家智能响应技术大招尽出,却仍然如此频繁地出现云服务宕机,到底是谁的过?

  是巧合还是常态

  云服务宕机难免发生,但对于像亚马逊这样的主流厂商来说,并不常见。

  在2012年和2013年由于电力故障和雷击事件等原因连续发生宕机事件后,亚马逊几年里几乎没有发生如此长时间的宕机现象。但是在9月20日的这次事故中,亚马逊AWS位于弗吉尼亚州的服务器于美国东部时间周日凌晨6时左右出现故障,波及美国东北部大部分地区,导致包括Netflix、Airbnb、Product Hunt、Medium、Social Flow、Buffer、GroupMe、Pocket、Viber和亚马逊Echo等多款热门产品和服务的基础设施故障。亚马逊花了两个小时找出问题所在,又用了3个小时的时间进行修复,直到当日12时,大部分服务才恢复正常。

  仅过一天,9月21日Skype3亿用户无法进行登录或呼叫,此次Skype宕机时间更持续了长达15个小时。

  如此长时间的服务完全中断或相应异常对于云服务商和厂商本身来说,损失都堪称惨重。

  必须认清的是,黑色9月并不是巧合,而是云服务目前的一种常态。来自Gartner的分析师周凯沃在接受《通信产业报》(网)记者采访时说道:毋庸置疑,“永不掉线”是云服务商愿景的核心部分,100%的高可用性却成为难以保证的“奢求”。

  巨头出事总是让人瞩目的,亚马逊的宕机时间掀起讨论,也敲响警钟,像亚马逊这样已经迈入成熟阶段的厂商,在保证应用程序的高可用性和数据的安全性等方面具备强大实力的,世界一流的科技巨头也概莫能外,依然面临5小时宕机的危机。那么对于与其完全不在一个数量级上的云服务提供商和互联网厂商来说,对他们应对宕机等危机的处理反应,更不能抱有太不切实际的期望。

  隐形的成本和阵痛

  “我们在云平台上用了20多台服务器,在去年一年出现过1次全部断电,5次多台硬盘读写障碍,10次以上运维不响应等各种问题。”国内某手游厂商的技术总监向记者列出了这些数据。更有甚者,据另一厂商介绍,甚至在租用的某公有云服务时,运维人员未通知的情况下该公司全部服务意外“被重启”,造成的后果可想而知。

  各种安全问题多得无法一一列举,但这些想得到的、想不到的问题侧面反映出的,是公有云服务保障背后的无力。

  从云计算进入人们视野的那一天起,“降低成本”一直是最吸引企业的地方。特别是在国内,开源平台模式较为常见,与亚马逊的发展模式类似,若所有的平台、虚拟化软件全部实现把原有开源的软件代码重写后形成自有软件,那么从成本角度考虑必然收费更低,这对于中小企业更具有吸引力。

  但是原本追求降低成本和建设门槛的公有云服务模式,却隐藏了以巨大的安全风险和后续成本为代价的发展阵痛。上述人士表示:“公有云的低价是表面上的,但是当故障频发给我们带来的损失累计起来,无形中又抬高了成本,同时我们还要承担服务中断、质量不保证而失去用户的风险。”

  完善机制、预案先行

  市面上主流的云服务提供商都强调自己服务具有高可靠性,然而愿望仍是美好的,现实却如此骨感。

  越来越多的成熟公有云可以更好地避免危机的发生,云厂商不断地在他们的平台上倾注大量的资金和策略以增加可靠性,但还是有些出乎意料的情况出现。

  有些云服务已经运行了较长时间相比较而言更稳定一些,这是因为它们已度过了粗糙和不稳定的阶段,解决了比其他服务更多的问题。周凯沃表示,对于安全服务的预案要包括额外的数据中心用作故障转移,实现更多的自动化、更好的内部沟通和更快发现和解决问题的能力。即在强化高可靠性的同时,对于宕机等危机有完善的预警和保障方案不失为更好的主意。云服务商承担责任、做好风险监控成为必选项。

  还有一个问题无法回避,就是我国对于云服务的监管体系存在有些领域监管缺失等情况,缺乏细分的行业服务的标准和监管。当云服务正突破互联网市场的范畴,逐渐成为基础设施,一些专家提出,云服务未来应纳入电信服务监管体系中。

  上海电信一位云计算专家告诉记者,“在国外,每个行业都逐渐形成自己的准入标准,在此基础上建立专业的服务体系就能规避更多的风险和矛盾。”据了解,目前国内金融行业正在逐步形成一套云服务技术规范,例如银行在建设云平台时,银监会专门派人对整套系统的技术环境做审计。

  政策法规不完善,公有云的服务很难得到真正规范。“面对全球化、网络化趋势,既要提高被动防御能力,也要抓制度建设,云计算安全保障体系及其预案尤为关键。”中国电子学会理事长娄勤俭表示。

  云服务宕机状况频发

  8月22日——富士通:位于硅谷的富士通数据中心因变压器故障影响供电,所以多种SaaS和公有云服务均暂时下线,波及的用户用了5天才恢复正常。

  9月7日——Nes:谷歌旗下智能家居公司Nest一周内宕机两次,所提供的智能恒温器和摄像头的云服务宕机约3个小时。

  9月20日——亚马逊:亚马逊AWS宕机长达5个小时,Netflix、Medium、Buffer、Reddit、Pcket、Product Hunt、Social Flow、GroupMe和Viber等知名网站、应用和亚马逊Echo服务受到严重影响。

  9月21日——Skype:Skype服务宕机,3亿用户无法进行登录或呼叫,时间长达15个小时。

  徐姗姗

关注读览天下微信, 100万篇深度好文, 等你来看……