淘宝汪海:挖掘数据之美

  • 来源:计算机世界
  • 关键字:淘宝,汪海,挖掘,数据
  • 发布时间:2010-04-28 13:58
  淘宝每天产生7TB的数据,而掌门人却不是学IT的。他如何分析和利用这些数据?

  本报记者 吴玉征

  汪海是淘宝网数据的掌门人,公司内部人称“七公”,每天与网站新增加的7TB数据打交道。

  谁能想到,汪海的专业与数据分析丝毫不沾边,他也没想到会在淘宝网呆了六年。这是典型的IT工作狂,30出头,时常加班,并以此为乐。他放松的方式就是玩游戏。

  可以说,淘宝网成就汪海,使他功成名就。而汪海不负众望,挖掘出网站的“数据之美”,将开放淘宝网的所有数据。

  谁不想得到淘宝网的数据?但这些数据会给行业带来哪些变化?汪海又是如何进入淘宝网工作的,他如何看到这些数据?

  泡论坛成才

  汪海进入淘宝网的时候,该网站刚成立。汪海经朋友介绍,抱着“先呆着”态度,在网站做DBA(Database Administrator,数据库管理员)。那是2003年,淘宝网处于创业阶段,工作多,累人。淘宝网没有什么硬性规定,可每个人工作都在12个小时之上,一周要工作六天。汪海回忆说:“进去当天觉得不对,工作到晚上10点多才回家。不过感觉还挺好的,非常辛苦,也非常快乐。”

  给汪海印象最深的是,他有一次在机房连续呆了五天,终于在星期六下午做完工作,然后回家一觉睡到第二天中午才醒来。“那段时间真的非常非常辛苦,但是我又觉得没有任何不爽。”

  汪海毕业于一所非著名学校,学的也是非计算机类专业。他的第一份工作是程序员,不过,干了两天,被辞退了。原因很简单,汪海拿着同学的程序面试通过,但在实践中被识破,老板直接让他走人。

  汪海的IT水平不至于那么差,他从小喜欢编程。在那一段没工作的日子里,汪海和计算机技术较上劲了,他游荡在各大专业论坛,“文字与代码齐飞”,与各板块技术“牛人”探讨数据库,还当了版主。“学术气氛非常浓,大家提的都是那种最难的问题,然后自己去思考,而不只是单单解决问题这么简单。”汪海说,“在论坛,我的水平提高非常快,现在阿里系里面的技术牛人当时也在里面。由于他们的影响,在我犹豫是否要出国留学的时候到了淘宝。”

  进入淘宝网之后,汪海不仅做DBA,也做基础架构、运维、开发等工作,只要是涉及数据平台产品,他基本都碰过。“新的挑战可能更多的是技术以外的东西。”汪洋喜欢挑战,不服输,就像泡论坛时的心态:“只有我教别人的份,没有别人教我的份”。他回头看自己成长教育说,其实是不是专科毕业都无所谓,关键是要喜欢这个,肯花时间钻研,能够坚持下去,自然就能学好。

  由于这种坚持和学习,汪海才拥有了Oracle全球ACE、2008年Oracle MAGAZINE全球年度IT Manager等荣誉。

  云计算的必要

  今年3月31日,淘宝首度面向全球开放淘宝数据,而汪海正是淘宝数据平台的掌门人。

  汪海说,淘宝开放的数据有两种类型,其一,通过“数据魔方”平台,商家可以直接获取行业宏观情况、自己品牌的市场状况、消费者行为情况等,但是不能获得竞争对手的数据;其二,通过与第三方研究机构合作的方式,商家可以直接向研究机构获取服务。

  淘宝网已经成为亚洲最大的B2B交易平台,每天产生的数据量高达7000GB。这些数据具有价值,大部分是由消费者、商家产生的,另外还包括物流公司和内部的一些信息等等。采用什么手段解读这些数据?汪海打了个比方:“通常,面对小数据量,我们会用表格以及图表去解读。但一旦信息量很大的时候,这些手段远远不够。淘宝数据云组成的超级计算机可以在最短的时间内,产生可直接使用的商业数据,并且利用更直观的、可视化的图像为企业解读,帮助企业完成商业决策。”

  以后,将会有很多电子商务企业通过淘宝网发布的数据受益。汪海强调,淘宝数据开放的“数据魔方”只是一个小水花,将来会有越来越多的开放政策,直至会变成大海。

  未来十年要“变成大海”,淘宝的数据开发还有很多事情去做。“从技术角度说,解读淘宝海量的数据规模,它是需要一个极大的云计算平台做支撑,”汪海认为,“这是未来十年整个技术领域最具挑战性的。”

  “说得直白一点,为什么要云计算?现在淘宝数据计算的挑战,就像20年前用一台60M硬盘、8M内存的286机器处理100G的数据那样,用户根本没有办法在单机或者小规模的集群条件下,实现这样的计算。云计算并不是一个虚无缥渺的概念,当用户真正要处理这么多数据时,才会理解云计算的意义。”

  汪海说:“用一万台服务器来做并发计算和极其复杂的应用时,如何保证这些机器能够一起发挥作用,怎么能让其中的100台服务器断电了也不会影响整体运算,怎么让程序员不需要写复杂的并行算法就可以实现分布式并行计算,这些都是云计算平台需要解决的问题。怎样均衡分布数据,怎样协调各个服务器之间的网络,怎么协调各个机器的进程和资源,都很复杂。并且,用户在一个跨机器、跨机房的分布式环境去实现这样的一个目标,这更是具有挑战性。”

  但汪海喜欢挑战,沉溺于技术的感觉,不断追逐新技术的变化,都让他欣喜。

  拥抱变化

  马云喜欢用武侠小说人物的ID给同事命名。汪海挑了“七公”这个ID。他说,现在有人叫他本名,已经不习惯了。在公司内部,大家都叫他“七公”。汪海也喜欢武侠小说,也觉得自己的性格就如洪七公那样,随性。

  如果从帮派的对比来说,在小说里,洪七公统领的丐帮是天下第一大帮派;在现实中,汪海领衔的淘宝数据平台,也是中国最庞大的数据资源。这两个团体,不管是虚拟的丐帮帮众还是现实中的数据,作为个体他们并不起眼,但众多个体被领头人汇集在一起之后,其力量真正是“随便跺下脚,整个武林都会晃荡。”

  掌握这样的巨大的资源,可汪洋就像洪七公那样,现实中是一个既不热衷规划、对已经达成的目标也没什么感觉,同时又相当懒散的游戏宅男。他的关注点不在过去而在于未来,不在成绩而在于挑战:“数据会成为淘宝未来非常核心的部分,这也就是我的下一个目标。”

  汪海说:“我这个人比较容易接受变化,觉得任何变化都是一种财富。一旦适应了这种变化,就具备了可以处理这种事情的能力。”这就是汪海一直呆在淘宝的原因。

  同时,“拥抱变化”是淘宝网的六大价值观之一,这家公司永远都不缺乏变化。“淘宝有很多的工种可以换,所以还是有很大的提升空间在里面。”汪海拿自己举例说,“每一次换工种就会遇到一个新领域,自己会觉得,随着每一次的技术改造,自己的眼界越来越宽,到最后会发现眼界是与全球同步的。”这一点,可以说是汪海在淘宝网最大的收获。

  链接

  寄语技术新人

  1.作为新人一定要谦虚。很多事情关键是要有行动,少空谈,多干实事。新人要放低姿态,用空杯心态去学习。

  2.学会忍耐,耐得住寂寞。技术人员做的都是些幕后工作,如果能耐得住寂寞和枯燥,才能独立思考,成为行业内有影响力的人。

  3.培养开放和分享的心态。如果抱着保守和封闭的心态,成长肯定受阻。

  4.要学会利用公司资源。新人可以和各个方面的优秀人才合作,可提升的空间是无穷的。
……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: