数据变现,你准备好了吗?
- 来源:中国计算机报 smarty:if $article.tag?>
- 关键字:数据变现,Teradata大数据峰会,数据分析 smarty:/if?>
- 发布时间:2016-05-17 15:16
“2014年至2015年,是数据收集的两年;2016年至2017年,将是数据分析的两年。”Teradata(天睿公司)首席技术官宝立明(Stephen Brobst)在5月6日—7日举办的“2016 Teradata大数据峰会”上说。如何进行数据变现成为此次大会最为热门的话题之一。
万物皆可分析?
宝立明表示,大数据现在已经进入到第四维度——数据发现,即一切数据都可以拿来分析,尤其是对物联网数据的分析让之前的数据价值都变得非常渺小。
可见,大数据并不是仅指数据量之大,还指海量数据的价值体现。宝立明引Gartner的数据称,到2018年90%已部署的数据湖将失去价值。原因之一是之前衡量数据湖的方法错了,以数据湖的大小来衡量难以将数据的成本和价值体现出来;原因之二是传统数据湖存在数据重复。
Teradata大中华区大数据事业部总监孔宇华在峰会期间举办的一个圆桌论坛上表示,仅仅将大数据保存起来是不会发挥其价值的,要进行分析,并将分析结果用于业务部门,大数据才能真正产生价值。与此同时,如何充分发挥无处不在的物联网数据的价值正在成为一大热点。正因为如此,Teradata提出了“万物皆可分析(Analytics of Everything)”的概念。
沃达丰新西兰公司分析及数据战略经理David Bloch认为,所谓“万物皆可分析”,是指每个设备都能捕获数据,并让这些数据产生价值。沃达丰新西兰公司通过分析来自约800万台设备的数据来保证给客户提供良好的网络应用体验。
除此以外,沙特电信客户生命周期管理总经理Luca Decarli补充说,沙特电信一方面每天监控约60亿条DPI(深度报文检测)信息,以了解客户在网上搜索的偏好是什么,以更好地对客户生命周期进行管理,为客户提供更好的服务,提升客户体验,预测客户可能购买的下一个产品或者服务是什么;另一方面,借助数据应用来规避风险,在竞争日益激烈烈的市场评估客户流失的风险有多大,找到客户流失的触发点,从而制定更加合理的战略。
富国银行企业模型风险部副总裁刘维政认为,除了企业内部数据,外部数据也非常重要。比如,当石油价格下降时,富国银行就要整合产业上下游的外部数据进行分析,比如分析下游产业在油价下降10%的情况下财务杠杆和信用违约的比例会增加多少。
中信银行总行零售银行部客户服务管理处处长助理袁东宁甚至认为,数据就像是银行的血液,特别是在传统银行不景气的背景下,充分发挥长期积累的数据资产价值,不但可以变革管理方式,还可以变革生产方式。为此,中信银行还和百度等外部公司进行合作,以进一步了解客户的需求,为客户提供更加切合需求的产品和服务。
“在硅谷,企业业务有三种:一是数据业务,二是转向数据业务的非数据业务,三是根本不存在的业务。”宝立明在主题演讲中指出,“数据改变了商业模式,改变了客户关系,所以我们一定要把数据作为企业的竞争资源。”
超乎想象的数据变现
Teradata营销与业务拓展副总裁Mikael Bisgaard-Bohr回顾说,五年前Teradata召集银行客户集思广益,希望总结出关系型数据库和列式数据库结合起来能解决什么业务问题。结果他们一共总结出60~65个问题,当时大家认为这个数字相当不错。现在他们再召集银行客户来总结,结果发现数据除了能解决之前的60多个问题外,还能解决约150个全新的问题。于是,各类企业都在想方设法变现数据价值,甚至让电信运营商焕发了新的活力。
中信银行通过数据分析,了解到某个客户在三个月之内可能要流失。于是数据处理部门就将该客户的信息存入客户所在网点的刷卡机上。有一天该客户到所在网点办理业务,正在外边吃午饭的客户经理立刻收到一条消息:“你的客户来了,这个客户是一个有流失风险的客户”。这个客户经理马上就跑回网点,发现果然这个客户是要把钱转出去到别的银行去。于是客户经理对该客户进行有针对性的营销,把这个客户留了下来。
中信银行袁东宁介绍,中信银行之所以要与百度等外部公司进行数据方面的跨界合作,是因为有时候他们发现对新客户或者“睡眠”客户所掌握的客户信息太少,希望通过跨界合作补充这些客户信息,从而对那些可能再与中信银行进行交易的客户进行有针对性的重新营销。袁东宁透露,这样做,中信银行营销的成功率提升了10倍以上。
谈到数据变现,沙特电信Luca举例说,沙特电信的某个客户要建设一条15公里长的新地铁,沙特电信通过分析人们的移动线路数据,帮助这个客户在修建地铁时选择在合适的地方设立地铁站。事实上,类似的数据变现方式,其他电信公司也已经采用。比如,西班牙电信与Teradata合作,形成数据变现产品Smart Steps,从而给零售商提供门店选址、促销等服务。
富国银行的数据变现还体现在内部管理上。刘维政介绍,富国银行会在不侵犯员工个人隐私的前提下收集员工的健康信息,为员工提供差别化的健康保险或医疗保险。比如说,某员工身体脂肪比率相对较高时,每个月就给这个员工减少10美元的保险费用,以刺激员工加强身体锻炼。
至于现在对于数据变现还没有成熟想法的企业到底该怎么做,Teradata在2015年的大数据峰会就给出了一个大数据变现思考矩阵,企业可以参考这个矩阵设计、开发、推广大数据产品。Teradata大数据变现思考矩阵包含三个因素:企业拥有什么样的数据资产,哪些行业场景有数据的需求,以及以什么样的方式进行合作。
迎接新的挑战
正如孔宇华所言,要分析、处理来自内部和外部的数据并不容易,不是说应用了Teradata的数据库,再加上Hadoop系统就能解决问题。企业将在数据处理方面面临很多挑战。具体来说,主要包括以下六个方面:
第一,在战略层面,企业能否将数据看作是重要的战略资产。沃达丰新西兰公司的David认为,能否让企业的高层领导了解数据分析带来的洞察力最为重要。中信银行袁东宁认为,就银行业来看,情况比较乐观,大部分银行都已经非常认可数据的战略价值。
第二,IT平台构建带来的挑战。这种挑战来自两各方面:一方面是如何构建更加复杂的IT架构的挑战,另一方面是IT成本增加的挑战。Teradata天睿公司大中华区首席执行官辛儿伦认为,“三度两性一量”影响大数据的使用,其中包括结构度、精确度、敏捷度、关系性、易用性、含金量。这意味着无法用一个平台解决所有数据应用需求。事实上,一个平台不能满足所有数据处理需求已经成为业界的一个共识,企业需要引入Hadoop、Spark等开源数据处理技术和平台来存储、分析、处理非结构化数据。数据的规模急速增大和多样化程度大幅提升,正驱动企业优化分析架构技术。宝立明认为,下一代数据分析解决方案将是商业技术、开源技术,以及云部署技术等多元化技术的综合,Teradata正在帮助数千家客户探索如何从传统的分析解决方案向下一代分析生态系统的快速演进。为了更好地满足客户对于大数据应用的需求,Teradata持续完善其数据生态系统——UDA(统一数据架构),从而可以一站式满足企业的全部数据处理需求。据悉,借助UDA(统一数据架构)实现Hadoop等开源分析系统、Teradata Aster大数据探索分析技术和数据仓库环境的完美整合。
第三,如何合理地采用分析工具。袁东宁指出,除了传统的结构化数据的分析工具,现在还有很多非结构化数据的分析工具,特别是可视化的分析工具。企业要用好这些分析工具才能从业务层面发挥深层次的数据价值。富国银行刘维政表示,富国银行数据部门就非常重视工具的应用。他介绍,富国银行不再通过传统的需求单去找IT部门来满足数据分析需求,数据部门可以用简单的工具进行分析,几分钟就可以得到数据分析结果。
第四,如何找到合适的业务应用场景。David表示,很多数据团队大部分情况下都只关注工具和技术,而不关注如何与业务结合起来。
第五,如何合法地应用数据,特别是保证数据的隐私。David在演讲中表示,大数据带来价值源自对呈指数级增长的数据进行捕捉、储存和分析,重视隐私、许可和安全为第一要务。
第六,如何保证拥有足够的优秀数据人才,特别是数据科学家,搭建科学的数据组织。有人误以为负责数据处理系统建设的IT人员就是数据科学家,对此富国银行的刘维政认为,数据科学家就像建筑师,他的职能是反复尝试,以把房子建得更漂亮;而IT人员则像是施工队,负责把房子建好。刘维政介绍,之前富国银行和当前的很多机构一样,不同部门的数据各自独立,就像“数据军阀”一样。为此,富国银行就专门成立了一个跨部门的团队EDA(企业数据与分析),相当于成立了一个数据分析的联邦,这个联邦可以在一个平台上共享数据和分析结果,但仍然保持各部门拥有自己的数据和数据分析应用的状态。
宝立明表示,数据科学家是稀缺资源,并不是所有公司都有数据科学家,针对这种情况,Teradata的COE卓越中心有数据科学家为全球客户提供服务,帮助客户找到新的数据模式和见解。为了更好地为客户提供数据咨询服务,Teradata还于2014年9月收购了专业的大数据咨询服务公司ThinkBig。按照Teradata的说法,借助ThinkBig的大数据咨询服务,Teradata可向客户提出多元化大数据的咨询建议,降低大数据分析系统部署和应用的难度,进一步强化统一数据架构的优势。
制造业或成为热点行业
谈到大数据应用,业界通常关注的是金融、电信、零售等行业,而较少有人关注制造业。记者在本次峰会上发现,制造行业正在成为大数据应用的热点行业,特别是随着对物联网数据的分析技术的成熟,很多生产线的数据变得可获取、可分析。
值得一提的是,Teradata于去年10月宣布推出Teradata Listener和Teradata Aster Analytics on Hadoop两个具有突破性的软件功能,旨在帮助商业用户发掘并应用隐藏在物联网数据中的洞察力。
Mikael认为,在工业4.0时代,数据优化的不是一台机器,而是制造企业的所有资产,比如说,提高整个工厂的产出比,还能变革商业模式。
他以飞机发动机引擎制造企业为例说,现在波音售卖一架飞机,客户可以自己选择品牌。由于这些引擎已经智能化了,引擎制造商不再将引擎卖出去,而是租赁出去,并愿意承担风险。客户按照引擎工作时间付费,如果引擎出了问题,客户甚至可以不用付费。
据悉,作为Teradata的一家客户,某大型厂商面向全球医院和诊所销售并维修核磁共振成像、X光照相和超声成像设备。该厂商提供的医疗设备每天进行数千次患者扫描,成为全球医疗服务中不可或缺的重要设备。描述患者行为的文本日志和传感器数据全天候不间断地从这些设备串流至该厂商的Hadoop数据湖。Teradata对这些数据运行文本分析,获取可帮助遍布全球的现场维修人员提升设备正常运行时间,延长维护周期的洞察力。与此同时,设备制造过程的数据也可串流至Teradata专用平台,在平台进行分析,分析结果有助于避免曾经出现的问题遗留到下一代产品中。
数据变现还可以体现在制造企业车间管理上,Mikael以某重型工业设备制造商为例进行了说明。有一次工厂的工会抱怨说流水线上的工人根本没有足够的时间上洗手间,而管理层却说这种情况不可能发生,因为他们已经对流水线上的监管人员指示,不能限制工人去洗手间。由于双方意见不同,于是他们决定选择一条流水线做试验,让流水线上的所有工人都戴着可穿戴设备Fitbit以收集工人的各种信息。收集上来的数据分析结果出来后,不但发现工人有足够的时间上洗手间,解决了工会投诉的问题,还发现流水线上的工作流程并不如想象的那么合理。因为数据显示,工人为了组装重型工业设备,通常要单手举起一个非常重的部件,然后弯腰去拿工具来进行组装。根据这些数据分析结果,工厂对流水线的工作流程进行了再造。“如果没有对Fitbit收集的数据进行分析的话,这基本上是不可能实现的。”Mikael说。
链接 数据驱动的eBay
近日,线上购物巨头eBay宣布收购使用机器学习进行大数据分析的瑞典公司Expertmaker,为其在线购物平台注入更多人工智能、机器学习和大数据分析能力。可见,大数据分析在eBay整体战略中占有不可忽视的地位。
在“2016 Teradata大数据峰会”举办期间,eBay中国数据服务和解决方案团队主管李炜在接受《中国计算机报》记者专访时介绍,eBay的高层管理者早就把eBay定位为数据驱动(Data Driven)的企业,数据驱动与Teradata提出的“万物皆可分析”有着异曲同工之妙。
在eBay每个产品组都有数据产品作为支撑,从而使得卖家在eBay更加顺畅地开展生意,买家则可以买到更加理想的产品。借助eBay的数据分析结果,卖家可以获取诸如哪些商品的供应量上升而需求量下降等信息,从而调整销售策略;买家则可以获取哪些商品的热度上升,从而做出决策该买哪些商品;给用户画像,从而精确得出哪些买家的风险较高,哪些买家热心买东西。
eBay在刚组建的时候就成立了数据仓库部门,后来随着数据应用的不断增加,逐渐发展成为今天数据服务和解决方案团队。eBay的数据团队分布在中国上海、美国西雅图和圣何塞,其中上海团队有100多人。eBay的数据团队由数据工程师、商业需求分析师、产品经理和数据科学家组成。
在数据相关系统建设上,eBay采用了多平台的战略。李炜表示,他不认为一个系统就能解决所有的数据问题,而且从成本上考虑也不划算。李炜用了“非常巨大”来描述eBay的数据量,尽管数据的可用性还未知,但是eBay保留了所有交易数据和6年内的用户行为数据。eBay的数据量之大可想而知,因此eBay将这些海量数据存储在成本较低的Hadoop上。
据悉,除了Hadoop,eBay还积极采用其他开源的数据处理技术,特别是以Spark为主导开发机器学习应用。
李炜介绍,eBay拥有四大数据系统,其中包括三个生产系统和一个测试系统。三个生产系统分别是:用于支撑核心交易系统、基于Teradata数据库产品构建的传统企业数据仓库,用于存储所有客户数据的平台Singularity,以及Hadoop平台。
谈到eBay近期数据应用的重点,李炜介绍说,他们正在不断完善针对卖家的数据应用Seller Hub,该应用旨在通过数据分析成果给卖家提供更加深入的市场洞察。比如说,哪些产品卖得好,新推出的产品该如何定价。对于后者,eBay抓取、分析的不仅是eBay网内部数据,还有外部的类似商品的定价信息,从而给卖家推荐最后的商品定价。
不过李炜坦言,采用多平台战略使得eBay面临一些挑战:第一,数据搬移,即如何保证数据在不同系统中同步;第二,平台多样化带来的管理问题;第三,人才问题,不同平台要求不同的技术人才。
李炜指出,占总数据80%以上的行为数据是eBay最为重要的数据,对行为数据的分析可以得出网站的用户情况,比如说,某个消费者喜欢买什么东西,在什么时候买。
链接 拥抱开源 完善大数据生态系统
“2016 Teradata大数据峰会”的主题是“数据仓库、开源融合、极致演绎”。Teradata(天睿公司)大中华区首席执行官辛儿伦(Aaron Hsin)表示:“Teradata大数据峰会将帮助广泛的企业更加清晰地了解数据分析和构建更佳的下一代分析生态系统的价值所在,帮助企业释放数据的潜在价值。”
那么,什么是下一代分析生态系统?按照记者的理解,就是结合了商业技术、开源技术的多平台的新一代大数据解决方案。正如Teradata首席技术官宝立明所言,数据分析解决方案正在快速从传统分析解决方案向下一代分析生态系统演进。
谈到数据库或者数据分析市场的变化,在Teradata营销与业务拓展副总裁Mikael Bisgaard-Bohr回顾说,30年前Teradata的核心技术是关系型数据库,随着时间的推移,数据分析市场的需求也起了很大的变化,我们的解决方案也从传统数据仓库扩展至包含开源技术的分析生态系统。现在很多研发人员、数据分析人员也关注如何更好地实现数据变现。“不仅Teradata,其他的传统数据公司都在面临同样的变化,因为整个市场已经发生了变化。”Mikael补充说。
随着非结构化数据量的大幅增加和非结构化数据分析的需求不断加大,单一平台早已经不再能满足所有数据的处理需求。因此宝立明认为,生态系统将成为行业潮流,商业技术要与开源技术结合起来,生态系统方案将成为行业标准和最佳实践;全新的开源技术,特别是Hadoop技术,以及云环境将成为行业趋势。
因此对于大数据分析和应用供应商来说,如何更好地将商业技术与开源技术结合起来,构建完善的生态系统,成为现阶段的一大挑战。
宝立明透露,Teradata算是最早宣布将开源Unix和Linux应用在数据库平台之上的,而且现在Teradata采用的操作系统也是完全开源的。此外,他还透露,Teradata在Hadoop上投入很大,为的是让开源技术可以和商业技术实现互通,例如Teradata开发的专利技术QueryGrid连接器。Teradata还在Hadoop文件系统上添加了仪表盘能力,使流数据能够进入Hadoop进行部署。
如今,Teradata已经构建了其数据生态系统——UDA(统一数据架构)。UDA实现了Hadoop等开源分析系统、Teradata Aster大数据探索分析技术和数据仓库环境的完美整合。
谈到感兴趣的开源产品,宝立明滔滔不绝。“我们要和开源社区讨论软件发展方向。”宝立明在接受记者采访时表示,虽然在开源软件和开源社区方面,商业软件供应商没有充足的发言权,但是与开源组织的合作带来的多元视角可以更好地推进商业软件的发展;同时,他认为,诸如Teradata这样的商业软件供应商的价值,能让开源组织的生态系统更加有价值,比如说,让开源软件从商业软件中获取价值。
■本报记者 邱燕娜