阿里云的数据三部曲

  • 来源:IT经理世界
  • 关键字:阿里云,大数据
  • 发布时间:2017-05-18 13:50

  被数据流通和应用所改变的用户们。

  2016年1月,阿里云在云栖大会上海峰会首次公布全面的大数据战略和一站式大数据平台“数加”。当时,参会者在展区围住阿里云数据业务部高级专家陈鹏宇,甚至有企业在现场直接拉群,邀请陈鹏宇入群探讨数据业务。

  陈鹏宇2010年加入阿里巴巴,从负责蚂蚁小贷业务的大数据技术开始,在早期就参与了阿里大数据业务的发展过程。在阿里云公布大数据战略一年多后,陈鹏宇总结企业用户在大数据实践中的“三部曲”:看数据、用数据和跨行业打通数据。

  “看数据”要像“看电视”

  “Data 1.0阶段是看数据,这是大部分企业的基本刚需。”陈鹏宇说。虽然看数据的传统BI工具已发展多年,但对企业老总和业务人员来说,看数据仍然不是一件简单轻松的事。这是因为传统BI都太复杂,企业还要花大量时间来解决数据孤岛问题。

  “现在有了云,数据采集后直接上云,天生就能融合在一起。只要有合适的工具,就能让看数据变得简单”。

  阿里推出了看数据的工具Quick BI,突出“快”。它的理念是,老板和业务人员有需求,不再需要传统上分析师转化需求和数据工程师准备数据的过程,不用写代码,可直接连上云端的各种数据库,用户“拖拖拽拽”就能产生各种数据报表。而之前,“看数据”的响应周期是以周来计算的。

  “我们希望今年把Quick BI做成阿里云的标配,就好比每家每户都有电视机一样。”陈鹏宇说。

  在“看数据”上,阿里云还有一种大屏产品DataV,据说这是阿里云上生意极为兴隆的业务之一。它是一种软硬结合平台,无论阿里自己的日常业务展示、“双十一”大屏展现,还是长江三峡工程、杭州城市数据大脑中都有这种大屏的身影。

  今天在数加平台上有3万个大屏模板,都是客户设计分享出来的。“我真的没有想到,它很快就成了一个爆款。”陈鹏宇说。

  机器学习“不高深”

  到了Data 2.0阶段,数据要直接为业务所用,就像创新小贷业务,没有信贷员,用数据决策贷款发放。“数据+算法就能解决业务问题。”陈鹏宇说,“其中最关键的是算法效果,这方面的人才很缺,我们叫他数据科学家。”

  陈鹏宇观察,目前市场上需求强劲的是个性化推荐。但以前只有淘宝、亚马逊这些大公司才能玩,因为要写算法、要有庞大的计算资源反复训练模型。

  中小电商、新闻网站、音乐社区能不能达到千人千变的效果?现在,阿里团队把推荐算法和数据处理过程包装起来,用户只要按预定格式输入三类数据——脱敏客户信息、物品信息及客户和物品之间的历史行为,就可以得到推荐结果。

  在新闻推荐上,陈鹏宇坦言《今日头条》做的推荐算法不错。“这要对新闻做比较完整的画像,与商品推荐不同,要通过自然语言处理,提炼出新闻内容的关键词”。

  不难想象,推荐算法用到了机器学习,但这是一般企业都不敢碰的高深技术,同时还需要大量计算资源——一个个性化推荐算法,模型训练周期很长,可能要跑好几天。为此,2015年阿里云推出了机器学习平台PAI,最近这个平台刚刚发布2.0版。它把机器学习算法封装好,将成百上千的参数隐藏起来,提供很多模板。

  “你只要大概了解一下逻辑回归、数据森林用在什么场景下,就可以开始工作了。”陈鹏宇说,“有了这类平台,做过数据分析和数据开发的工程师都可能往数据挖掘的道路上转型。”

  机器学习技术的普世化让大量中小创新梦想成真。如利用PAI,墨迹天气每5分钟就可针对某一精准区域做一次天气预报。

  “受控的核反应堆”

  到了Data 3.0阶段,业界将交叉打通数据。

  去年,曾有企业推出人工智能手机——手机能神奇地了解你的所需,并主动帮忙。例如,你外出旅行,飞机落地可以自动帮你叫车去之前订好的酒店;你在电商平台购物,它会货比三家,还能在你走近快件储存柜时,自动提示取件码。仅仅这几个场景,背后就需要打通航班、酒店、叫车、电商和物流等不同领域大企业的数据。

  陈鹏宇预测,在Data 3.0阶段,会有很多公司提供数据打通和应用创新服务。“而数据打通一定要有机制。”他说,“我们说是在一个受控的核反应堆里,完成数据新能源的化学反应。”

  这意味着,当不同企业的数据进入到受控平台,他们可以写程序,用到平台中的各种数据,哪怕是用户的敏感信息。但任何人,包括写程序的人都看不到数据,这叫“数据可用不可见”,而且谁也拿不走。“我们确保数据的流通和使用权,但不是版权和拥有权。裸的数据拖来拖去,一定是不行的”。

  今年春节后,菜鸟与物流公司在阿里数加平台上构建一个受控的数据交换中心,叫菜鸟物流云数据池。菜鸟和物流公司都把数据放在那儿,并使用平台上的配套工具分析数据,展现结果。如查看哪些包裹线路比较繁忙,物流公司可在仓储、人力上进行更好地调配。

  这样的数据流通和应用机制,能让一些公司改变态度。“因为现在基本上每家公司都想用别人的数据,但又不想把自己的数据给出去”。

  传统企业的积极姿态

  对数据的应用需求不仅来自互联网企业,传统企业也找到大型互联网公司寻求合作与创新。“特别是以前没怎么具备数据化服务的行业,如地产、旅游和工业”。

  协鑫光伏科技有限公司是全球第一大光伏企业。在太阳能面板生产中,生产良品率每提升1%,公司就能提高上亿元收入。“我们通过历史上每一次切割的参数值和最终切出来的良品率去做分析,最终找到影响良品率的600多个因素,协助协鑫调整生产工艺和流程”。这套方法论是可以复制的。同样的,阿里也协助中策橡胶提升了3%到5%的良品率。

  再如像波司登羽绒服,以前的渠道主要是门店,但“双十一”购物大潮到来之后,波司登也有了很多电商渠道。如果这两套系统不打通,仓储和调货会很麻烦。波司登利用阿里云企业级互联网架构,打通了它的内部数据,把库存降了下来。很多企业类似波司登,采用混合云,先把线下门店和线上门店数据跑通,来降低库存。

  陈鹏宇不断强调云上数据的安全性。这是很多客户的顾虑。“当数据在线化后,企业会担心数据在一朵云上,会被云供应商管控了,其实这个担心是没有必要的。”陈宇鹏说,“我们给客户提供所有第三方审计,例如我们通过了公安部的等保三级认证,相当于金融服务水平。你把数据放在云上,就好比把钱存在银行,或者放心打手机而不担心被监控是一样的。”

  文/赵艳秋

关注读览天下微信, 100万篇深度好文, 等你来看……