双十一后,阿里云称仍需“补钙”

  对于阿里云,业界的普遍评价是“特立独行”,甚至“颇具争议”:与业界开源潮流背道而驰,从第一行代码就坚持自主研发;在业界最先喊出“去IOE”,有勇气招募庞大的技术团队承担商业风险。不过对于自身,阿里云却很清醒,甚至承认“自信心不足”。

  双十一,天猫炫耀的是商业,阿里云炫耀的是技术。在阿里内部一直就有这样的说法,没有经过双十一考验的技术就不是好技术。这次阿里云双十一炫技主要围绕四大话题:全球最大规模的混合云架构,自主研发的分布式关系数据库OceanBase,全国任意节点的交易支付“异地多活”,以及数据可视化技术DataV。

  对于阿里云,业界的普遍评价是“特立独行”,甚至“颇具争议”:与业界开源潮流背道而驰,从第一行代码就坚持自主研发;在业界最先喊出“去IOE”,有勇气招募庞大的技术团队承担商业风险。不过对于自身,阿里云却很清醒,甚至承认“自信心不足”。“可能再过一两年,中国互联网人技术自信心真正建立起来的时候,这些争论就会消失。”阿里云资深总监李津很自省,“今天,我们这些互联网人还没有建立起像华为、海尔这些工业企业那么强大的自信心”。

  对于现有的产业环境,中国缺少自己的基础软件,从操作系统、中间件到数据库还很不成熟,只有当中国人会有自己的基础软件,真正自主的芯片,那时中国互联网的技术骨骼才真正成型。“从这个角度看,我们互联网人仍需补钙。”李津也很中肯,“因为能做成这件事的如果不是BAT这样的互联网企业,又怎么对得起我们的千亿市值?”

  因为,真相残酷。

  第一,推出新品是很残酷的事,但这就是市场。阿里云目前对外开展服务的产品只是冰山一角,不少产品在内部竞争中就已经被残酷淘汰。

  第二,6岁与30多岁比成熟是很残酷的事,但这就是商业。在Oracle、IBM、微软这样的商业关系数据库巨头充斥的市场,近40年来“大树之下寸草不生”,6岁的阿里云在这样的环境下成长本身也是残酷的事实。因为,用自研的分布式数据库OceanBase服务来替换商业数据库,不只是技术的事儿,还需要生态环境。至少OceanBase在今年双十一中首次经受住了技术的考验。

  第三,云的路径选择也是很残酷的事,但这就是现实。Openstack开源云发展如火如荼,众多企业投入其中。但据李津透露:“Openstack市场占有率仅为1%,这意味着什么,残酷到什么程度呢?”阿里云在争议中选择的是另一条路。

  特立独行,坦白为何摒弃开源

  走得远和走得快,其实是两个话题。对于阿里云则另有所指:这就是自主研发和拿来主义的区别。真正的技术竞争毕竟不在于简单的产品形态,而在于底层技术和技术应用的突破。阿里云在争议声中摒弃了开源云,而是从第一行代码就坚持自己编写,这样的选择也决定了整个技术体系的路径。

  比如双十一中的亮点OceanBase,其重大意义在于,它是具有自主知识产权、金融级别可靠性、分布式关系数据库。不仅如此,阿里云还强调,由于自主技术且软硬深度优化,它的成本不仅低于商业数据库,甚至比开源数据库成本更低。

  作为基础软件,诞生于5年前的OceanBase一路走来就伴随着怀疑与信任交替更迭,每一步都走得谨慎:去年双十一OceanBase已初现端倪,当时承担了天猫10%的交易流量,今年双十一则承担了100%的交易流量,并作为交易核心链路证明了自己。据悉,它将于明年作为关系数据库云服务正式推出。不过,它未采用开源技术目前也不会开源,但会以PaaS服务的模式进行开放。

  不为纪录,只因商业倒逼技术

  阿里云官方有这样一组对比数字:阿里云最高创建14万笔/秒订单,并平稳支撑起了8.59万笔/秒的交易峰值,大幅超越了Visa和MasterCard信用卡的实际处理能力。这从一个侧面展现了OceanBase的技术实力,并被称为“全球首个应用在金融业务的分布式关系数据库”。

  但信用卡创建订单和处理订单交易的背后流程是否比阿里云更为复杂呢?

  “阿里云从来没想过去创造世界纪录,全是被业务倒逼的,就如当年提出去IOE一样都是被逼无奈。”李津这样回答记者的问题。

  第一,安全验证。从登录支付宝的第一刻起,阿里云就进行了金融级别的信息安全验证。

  第二,业务逻辑。信用卡、银联和支付宝都连接商户,但支付宝有更特定和复杂的业务逻辑,那就是不同商家的不同优惠策略(比如满100减20,优惠券领取),这是中国电商的支付特色。“VISA是简单的支付渠道,支付宝不是简单的支付渠道,而是有大量的业务逻辑。”李津认为。

  应该说,一个企业能否长远发展,要看商业模式创新背后是否有真正的技术革新。在天猫不断创造双十一交易神话的背后,这种商业和技术的紧耦合关系也倒逼了阿里云技术能力的提升。

  不为峰值,商业追求持续可用

  不可否认,在双十一开始的前几分钟交易高峰,天猫部分用户仍然遇到了暂时无法交付的问题,阿里云的回答是“意料之中”。

  此次阿里云是按照12万笔/秒订单创建而预设的架构,实测14万笔/秒也超出建设标准。“不可能为了瞬间的峰值而付出无限的代价,这是商业平衡问题。部分用户出现暂时无法交易的情况是因为系统正在限流和排队,属于延时可控范围”。

  实际上,在今年双十一中,阿里云还首次实现了全国范围的异地多活技术创新,以保证交易的持续可用。从银行业主流的“两地三中心”到“异地多活”,阿里云历经三年、经历了三代架构体系的演进:“同城双活”,“异地只读冷备”,“异地多活”,并在今年双11中验证了真正的“异地多活”:

  第一,多个跨地域的数据中心,且距离一定要做到1000公里以上,意味着可实现全国任意节点部署交易系统的能力。

  第二,多点写,即每个数据中心都要承担用户的读写流量。

  第三,任意一个数据中心出现问题,其他数据中心都可以分钟级别去接管用户流量。

  公开资料显示,全球能够做到异地多活的只有Google、Facebook等少数几家互联网巨头,但阿里云认为,无论是搜索还是社交场景,对数据一致性的要求远不如电商场景苛刻。在“双活”和“多活”改造中,阿里碰到的所有的问题都没有可参考的对象,包括开源软件都不涉足这个领域,异地多活是完全自研的技术。

  这其中最大的挑战来自距离和多点写带来的数据一致性问题。据透露,阿里为此自研了一套内部代号“单元化项目”的核心技术,核心思想是单元封闭,即需要让单元内的应用访问和数据的读写操作全部处于封闭状态。

  这个项目涉及数据传输同步技术、分布式数据库一致性、从硬件到中间件的软硬优化,以及与行业和经验相关的业务单元划分,这种一体化的极致要求恐怕也只有“从第一行代码就开始自研”的方式才能得到统筹解决。

  在实现异地多活之后,意味着阿里具备了以“单元化”进行水平伸缩的能力,以及异地多活的故障应对能力。据悉,阿里正在将这一技术逐步开放。比如,可以在较长延时的情况下解决多点数据同步的技术,已经通过阿里云数据传输服务对外开放。

  记者认为,与单一的技术炫酷相比,今年双十一阿里云在技术上的多点集体突破现象尤为值得关注。记得今年阿里云6周年活动上,阿里云总裁胡晓明就曾踌躇满志:“我们的云计算技术、硬件技术、网络技术到底能为世界贡献点什么?”这接下来的一两年里,或许是阿里云接近技术梦想的时候。

  本报记者/陈翔

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: