Informatica教你玩转大数据

  术业有专攻。21年的专注,让Informatica在Gartner有关iPaaS(企业集成平台即服务)、结构化数据、数据脱敏、产品数据解决方案、客户数据 解决方案、数据质量工具、数据集成工具等魔力四象限中,都位居领导者的第一象限。大数据时代的来临,让Informatica逐步从后台走出来,为更多的企业所知晓。

  “Informatica成立于1993年,1999年在纳斯达克上市。21年来,我们只做一件事情,那就是专注于数据集成和数据治理。”这是7月10日在贵阳举办的“生态贵阳国际论坛”上的“云上贵州:大数据国际年会”分论坛上,Informatica大中华区总裁王晨杰接受本报记者采访时介绍说。

  大数据的误区

  IT市场不乏炒作热点,物联网曾经被认为是包治企业百病的神器,大家争先恐后开展物联网业务,唯恐被落下。如今,大数据又重现当初物联网的热潮,仿佛具有药到病除的神奇功效,因此当前IT市场言必谈大数据。

  大数据等于决策,这是当前市场上很流行的一种观点。

  王晨杰认为,大数据带给企业两大好处:一是帮助企业降低成本,不仅可以节省数据占用的IT资源,而且可以降低决策成本;二是通过对数据的深度挖掘和充分利用,帮助企业实现业务创新和转型。但所有这些的前提是数据必须准确,如果都是垃圾数据,结果只会适得其反。

  要想知道大数据的能与不能,应该从认识数据和数据处理开始。王晨杰介绍说:“Informatica从3个层面理解大数据:一是交易数据,也就是我们常说的结构化数据,常用于基于模型的分析;二是交互数据,这指的是由互联网和物联网的快速发展带来的大量非结构化数据和半结构化数据,对交互数据可以采用关联分析,也可以经过提取进行模型分析;三是大数据,大数据处理涉及如何高效与更加经济地处理大数据的问题。”

  “交易数据最能准确地反映事实,交互数据可以扩展和完善交易数据,并且常常对业务产生预想不到的影响,大数据处理是对大数据充分、合理的利用。”王晨杰补充说。

  最能反映事实的数据,也应该是最有价值的数据。企业战术层面的决策,比如说呼叫中心对用户的响应,可能用不上结构化数据。但企业在战略层面的决策是离不开结构化数据的。如果企业没有一定时间和规模的结构化数据积累,是难以做出战略层面的决策的。而过往基于流程应用造成的信息孤岛,以及实时性差这两项因素,造成结构化数据的价值难以充分发挥出来。

  “企业信息化建设在中国至少有20年了,任何一个上了IT系统的企业都会有很多数据积累下来,但这些结构化数据都是按照一个一个应用系统积累起来的——企业需要解决一个问题,就会根据特定的流程上一个系统,而相关的数据就被封装在特定的流程中,于是在企业内部形成了多个信息孤岛,流程之间的数据无法共享。”王晨杰表示,“如果企业无法从信息孤岛中抽取数据,在很大程度上是无法通过数据得到企业的经营状况的,更不能通过商业智能软件展现出来,进而帮助企业做出决策。这样的数据是杂乱的,我们把它叫做‘垃圾进去,垃圾出来’”。

  大数据的实时性和更广泛的数据来源,弥补了结构化数据的这一弱点,而且这些大数据经过结构化处理后,与企业原有的结构化数据一道,经过基于模型的分析,为企业关键决策提供依据。

  需要提醒的是,由于SOA(面向服务的架构)和云计算的普及,显著缓解了企业信息孤岛问题,同时也加速了结构化数据的产生,结构化数据的价值不断体现出来。

  大数据不完全等同于决策,还因为决策需要专家系统的支持。俗话说胳膊拧不过大腿,企业的兴衰与所在行业的景气度和行业发展趋势密切相关。20年前,寻呼机曾是人们最重要的移动通信工具。时至今日,寻呼机市场早已不复存在。正所谓“皮之不存,毛之焉附”。

  “大数据带来的最大改变不只是数据量的增加,更重要的是带来了分析决策模式的创新。大数据的分析方法类似于数据挖掘,即通过对大量数据的分析,找出潜在的业务规律。专家系统和传统的决策分析,更倾向于基于行业决策模型和行业知识,分析和总结业务结果是否符合业务预期,以指导后续的决策过程。无论采用哪种分析形式和方法,都会有意、无意地加入人们对行业的理解。”王晨杰表示,“首先,在数据选择上,我们绝不会将完全无关的数据作为本行业的决策依据;其次,分析的方法虽然是通用的数学和统计算法,但是不同行业和不同场景需要进行不同的解读。所以说,分析离不开行业知识,同时要结合合理的分析方法,才能做到决策的精准化。”

  上马大数据应用前要先评估

  当前,市场上各色IT厂商关于大数据铺天盖地的宣传,弄得很多企业认为不用大数据就赶不上时代的潮流。而Informatica却认为,并非所有的企业都能立即从大数据应用中得到回报。

  王晨杰认为:“企业现在是否需要采用大数据应用,主要取决于3个方面:一是企业是否拥有大量各种类型的数据,二是自身尚无大数据的企业是否可以获得相关的大数据;三是大数据能否对业务产生价值。”

  “在对上述3个方面进行评估后,企业还应根据自身业务和IT设施的现状,决定如何上大数据项目。”王晨杰表示,“具备条件的企业实施大数据时,如果在较小范围内做,可能在三五个月内就能见效;如果在整个企业内全面铺开,可能需要一两年时间才能见到效果。”

  通常,企业要想将数据用于挖掘和决策,最好应该有3到5年的数据积累,数据规模大致是PB量级的。 “企业以前不重视数据,可能是觉得这些数据暂时用不上。但从现在开始,企业就必须认真对待自己的数据了。”王晨杰说,“我们跟客户说,不要因为之前的数据支离破碎,现在就不去汇总了。要相信这些数据的价值总有一天会体现出来。”

  构建企业自己的解决方案

  21年的专注,让Informatica在数据集成和数据治理方面底气十足。

  “数据集成指的是独立于所有的硬件平台、数据库平台对数据进行集成,无论企业后台有多少个数据库,环境有多复杂。事实上,环境越复杂,我们就越得心应手,我们处理的速度就会比竞争对手更快。” 王晨杰说,“从企业不同的信息孤岛中抓取包括Word文档、Excel文档,甚至是PDF文档,对Informatica来说都不是问题。”

  数据集成解决的是数据的抽取问题,接下来要做的是数据质量管理,也就是数据治理。“数据质量涉及数据的统一性、完整性和规范性。数据质量管理业务近年来成长得非常快。这也是我们的优势所在。”王晨杰说,“大数据的数据关联性带来了越来越严重的隐私泄露问题,从而使得主数据管理成为数据治理市场上的热点,这也是Informatica最为擅长之处。”

  王晨杰认为,企业实施大数据应用是一个很长的过程,Informatica的建议是,“一次开发,多次部署”。用户可以先购买一个简单的工具,把现有的应用系统整合到一个平台上,在未来新的应用系统上线后自动连接上,从而实现数据的自动积累。

  “数据本身不能决策,数据需要专家来分析。这些专家除了应具有行业背景外,还必须对数据具有深刻的认识,以及对数据的高度敏感。这样才能使大数据真正落地。”王晨杰补充说,“一些客户直接问我们应该怎么做大数据。我告诉客户,如果照搬别人经验的话,做出来并不是你的大数据应用。我们在解决方案中详细介绍了相关用户在其行业内的成功应用,而你要看到这些成功应用时,受到启发后用自己的数据去解决问题。这样,才能真正构建属于你自己的大数据解决方案。”

  本报记者 马文方

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: