大数据存储多少不重要 分析应用更关键

  “把大量数据通过低成本的方式存储起来并不是最重要的,你有多少大数据也不是最重要的,最重要的是分析数据,使其发挥出最大价值。”5月6日,在北京国贸大酒店举办的“2016 Teradata大数据峰会”上,Teradata天睿公司首席技术官宝立明(Stephen Brobst)如是说。

  本届峰会邀请德国沃达丰、沙特电信STC、富国银行、中国建设银行、中国光大银行、浦发银行、中信银行、英国TSB银行,以及eBay等全球不同行业企业到会并分享了以数据驱动企业发展的经验。

  数据的收集、策管与分析

  宝立明认为,企业探索大数据主要分为收集(Capture)、策管(Curation)和分析(Analysis)三部分。数据收集主要是将内外部数据采集存储至平台,供数据工程师或者数据科学家来存取使用;数据策管,也就是数据治理,主要是采用不同的策略方法对不同格式、不同来源的数据进行处理,建立可描述的数据存储模式和治理结构,进行周期性管理,这是现在企业的痛点和难点所在;但实际上,对企业最有价值的是数据分析,只有找出数据之间的关联性或者可分析预测的模式才是最重要的。

  Teradata天睿公司大中华区首席执行官辛儿伦(Aaron Hsin)在会上介绍,企业数据分析流程是IT、数据部门与公司内外部的最终用户共同定义一个认可的价值场景,并进行数据采集、获取、整合、建立模型、查询以及分析应用的过程。在这个过程中,常常会遇到不同数据来源的数据结构度不同,不同应用场景对数据的精确度要求不同,数据分析应用所要求的反应敏捷度不同,以及数据在不同来源之间的关系性不强或者不确定,数据本身的易用性不同,数据对每个场景的价值和含金量也不同等问题。为有效满足这些需求,就像本届峰会提出的主题“数据仓库、开源融合、极致演绎”一样,企业需要融合各种技术来发现数据的价值。

  辛儿伦表示,当今数据分析专业领域,已经无法通过采用单一平台,或是单一技术就能有效满足大数据分析需求,需要构建下一代大数据分析生态系统。如何有效应对数据之间的差异,建立数据管理体系及架构,整合统一管理数据,提升使用者满意度,是所有企业都要面临的问题。而Teradata提供的方法就是采用统一数据架构(Unified Data Architecture)。

  记者在以前的采访报道中曾经写过,UDA是将多种技术整合到一个紧密结合的、透明开放的架构中,等于给数据分析人员一把“瑞士军刀”,用不同样式的工具让用户发现大数据中潜藏的价值。而近来Teradata积极拥抱开源技术,让这把“瑞士军刀”的刀片越来越丰富了。

  开源 融合

  作为CTO,麻省理工博士毕业的宝立明是业界公认的数据仓库技术的一流专家,他于1999年就加入Teradata,此前曾任教波士顿大学和麻省理工学院,也曾成功创办三家数据库相关企业,同时他也是个不折不扣的开源拥护者。在会上,他介绍了目前数据分析领域的最新技术和做法,包括延迟绑定(Late Binding)、QueryGrid、Presto、Kafka、JSON等。

  延迟绑定技术是一种数据处理模式,这种技术不会在获取数据时就定义数据结构,而是要在使用数据,也就是在查询、读取时才建立数据结构,做加载、清洗和转换,如此一来,可以为企业降低数据成本并保持数据应用的灵活性。

  宝立明介绍,QueryGrid是一种互操作技术,可以实现Teradata与其他数据库产品的互通操作。据记者了解,几年前,Teradata和Hortonworks合作开发了Teradata SQL-H和Teradata Aster SQL-H连接器,用于在Hadoop平台上的Hadoop分布式文件系统(HDFS)与Teradata或Teradata Aster系统之间移动数据。现在这些连接器被合并到更广泛的QueryGrid连接器套件中。这种效率不仅能够消除瓶颈,而且还改变了分析的工作流程。使用QueryGrid,业务分析人员每分钟可以提出更多问题并获得更多答案,从而实现更深入的探索,更好地研究业务问题。其实,在2014年Teradata已经推出QueryGrid,功能已经越来越完备,目前已经能实现对ORCALE、SAS、MONGDB等数据库的无缝查询。

  “我们也与Facebook联合开发了Presto。”宝立明介绍。Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,适合解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Presto支持在线数据查询,包括Hive、Cassandra、关系数据库以及专有数据存储。Teradata为Presto提供经验丰富的可靠支持,有20多位经验丰富的开发人员专职向开源Presto代码库提供技术支持,而其两年前收购的大数据技术服务公司ThinkBig也可以帮助企业客户灵活部署Presto,利用所掌握的全面知识和经验来帮助用户。

  宝立明还提到,Teradata也在与LinkedIn共同开发基于Kafka的应用。Kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据。

  另外,对于JSON这样一种处理Javascript和Web服务器端的之间数据交换的轻量级数据交换格式,Teradata也在做技术跟进与应用。

  “1968年以前,跳高运动员都是用剪刀脚动作,20世纪80年代以后运动员才采用背跃式,用了12年,背跃式真正超越剪刀脚成为跳高界的主流技术。”宝立明以跳高技术的演变作类比介绍,“大数据技术、新的数据分析技术不会马上完全取代传统数据技术,但如果不跟进新技术,未来就会有被淘汰的风险。”

  用户观点

  万物皆可分析指的是每一个设备都能够捕获数据,我们需要利用这些数据产生业务价值。沃达丰新西兰公司有800万台设备,我们需要实现快速的网络覆盖和客户体验,保证VIP客户获得最好的网络使用体验。数据分析对我们而言,变得非常重要。

  ——沃达丰新西兰公司分析及数据战略经理 David Bloch

  沙特电信有很多监测数据,比如客户在网上的搜索偏好是什么,一天收集类似数据60亿条。我们需要基于这些数据,对客户进行全生命周期的管理,提升客户体验,提供更好的服务,预测他们可能购买哪项产品或者服务。另外,当客户态度变了、行为变了的时候,公司要觉察到并跟进服务,防止客户流失。

  ——沙特电信客户生命周期管理总经理 Luca Decarli

  数据分析与IT是什么关系?打个比方,数据人员是建筑师,他们理解终端客户的需求,解决的问题是设计房子该怎么建会更漂亮,通过数据建模反复尝试;而IT人员则是施工队,去落地数据人员的想法,把房子建好。

  ——富国银行企业模型风险部副总裁 刘维政

  数据已经成为银行的“血液”。数据对银行来讲是一个契机,是把这些长期积累的数据资产变现,使其发挥价值的时候了。无论从管理方式,还是生产方式,包括决策制定、组织架构调整、风险管控、精准营销、客户管理等都可以通过数据进行变革。

  ——中信银行总行零售银行部客户服务管理处处长助理 袁东宁

  ■本报记者 霍娜

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: