大数据应用:理想照进现实
- 来源:计算机世界 smarty:if $article.tag?>
- 关键字:大数据,电动汽车,移动应用 smarty:/if?>
- 发布时间:2012-08-08 10:03
自身业务的创新推动了企业对海量级数据价值挖掘的需求。通用汽车的安吉星(OnStar)服务每年管理的数量早已多达3 PB,该服务为车主提供远程车辆诊断服务、应对突发事件。在安吉星CIO Jeffrey Liedel看来,这些数据就是金矿。
例如,通用汽车正在测试在雪佛兰混合动力汽车Volt上使用的一款移动应用程序,该程序可以帮助驾驶员们监测汽车电池和远程管理充电。事实上,为数众多的车主都希望汽车制造商们可以缓解“里程焦虑”(担心电动汽车还没到开到目的地时已耗尽电量),所以目前,包括日产和福特在内的汽车制造商也已在提供或打算提供监测电动汽车的类似功能。Liedel说:“除此之外,客户对车辆驾驶情况、驾驶模式和燃油经济性等分析数据也非常感兴趣。”
并非只有电动汽车的用户想通过安吉星服务更深入地了解车况,通用汽车内部的业务部门用户和外部的合作伙伴也需要这些数据。Liedel表示,可靠、安全、灵活地提供数据,这项任务落到了IT部门的肩上。他说:“关键在于认识到数据和分析的重要性。”
除了这些掌握PB级信息的CIO要琢磨如何管理数据,那些仅仅收集GB级数据的公司也看好利用自有系统之外的信息。拥有处理“大数据”的能力和有效分析大数据的工具,正成为一种必需的竞争优势。
埃森哲首席技术创新官Gavin Michael说:“每家企业都在竭力利用自身拥有或可以访问的数据,希望获得比以往更有成效的数据支撑。不过,由于许多公司的分析人员数量很少,他们从未把大数据当做一种企业资源来利用。CEO们需要从企业的角度看待数据,了解如何整合和分析数据。”
交易和分析不混搭
随着硬件和存储成本不断下降,有些CIO会认为在现有系统的基础上添加容量以支持数据分析是经济高效的举措。但一些人则认为,分析大数据时,交易系统和分析系统单独维护是搞好这两个流程的必要条件。
美国退伍军人事务部在过去两年中部署了25个数据仓库,用于分析大数据。该部门为2200万名退伍军人提供健康福利,其CIO Roger Baker表示,分析来自退伍军人电子健康档案(EHR)的数据直接影响到临床医生能否更有效地使用该系统,隐藏在数PB的临床和遗传数据中的宝贵信息有望带来更有效的医疗方法。退休军人事务部甚至启动了征集DNA样本的一项计划,补充退伍军人的健康档案。
Baker说:“我们有一大堆二三十年间收集起来的宝贵信息,涉及病人的症状、治疗情况和治疗结果。”
Baker表示,EHR系统包含“面向交易速度的层次数据库,所以临床医生在门诊时,需要数据库快速反应。”另一方面,分析数据库会根据临床主题来加以组织:药剂信息在一个地方,血液数据在另一个地方。“我们希望为研究人员提供重要的关联数据和计算能力,让研究人员可以弄清楚需要什么样的数据。”
但是,数据分析并不容易,需要将某一病人的档案和其他病人的档案进行比较,同时也要和同一病人多年前的档案进行比较。由于数据量很大,Baker打算在明年添置超级计算机以便更快速地处理数据。他说:“数据访问速度越快,信息带来的价值就越大。”
不过,并非所有对大数据进行分析的公司都决定投资超级计算机,要不要投资于超级计算机取决于用户对获得查询结果的速度的需求。一般情况下同使用超级计算机获得查询结果只需几小时或几分钟,使用传统服务器从庞大数据集获得结果可能需要几天。
波士顿儿童医院的信息学主管兼哈佛医学院的教授Isaac Kohane表示,获得数据分析结果的速度也是因人而异的。目前,他负责哈佛医学院及附属医院的研究人员和医生之间的合作,开发用于处理临床和研究数据的技术。他表示,需要花这么长时间的查询所处理的工作并非优先级很高的业务事项,所以没必要花钱购置更强大的处理能力,来加快获得结果的速度。
重点在数据
在大数据处理的过程中,CIO们面临的一个更大的问题是,确保数据本身可用性和可靠性。大数据加大了数据治理、确保数据质量和访问控制方面的难度,因为它既涉及IT技术,又与业务部门密切相关。埃森哲的Michael说:“共享整个企业的数据未必是件容易的事,很难让整个企业共同来解决这个问题。”
2011年,罗得岛蓝十字蓝盾保险公司重组后精简了业务。在这个过程中,管理人员认真分析了企业自身处理利用这些数据的情况。这家保险公司原CIO现CEO Bill Wray说:“我们的数据资源非常分散,每个部门各行其是,财务分析人员、保险业务受理人和保健分析人员建立各自的数据集,且没有中央治理机制把数据汇集起来。”
由于受联邦医疗保健改革的推动,蓝十字/蓝盾保险公司希望改变原有仅仅处理医疗赔付的方式,通过为医疗服务机构提供经济激励以促进病人的健康,同时鼓励病人与初级保健医生建立更密切的关系,以降低现在每月处理100万笔索赔的压力,当然这需要企业级的分析功能做决策后盾。
Wray说:“如果更好地利用初级保健医生的资源,在疾病预防上下功夫,会让病人更健康,医疗赔付的成本也会随之降低。但是,人们在就医的过程中需要有大量纵向分析和趋势分析,这些分析让这个问题变得错综复杂。”
目前,罗得岛蓝十字蓝盾保险公司有一个企业数据库,但建立数据库的目的主要是收集数据,报告给用于横向比较的全美蓝十字蓝盾商业智能系统,本地分析人员并不使用该数据库。这样一来,要完成新业务模式所需的分析工作,该数据库就缺少来自公司理赔系统的信息,同时也缺乏可整合的外部市场数据。
科罗拉多州教育部在大数据应用方面也有着自己的遭遇,对他们来说,确定新的数据治理做法是开发全州纵向数据系统(SLDS)过程中的一个重要步骤。该项目旨在把来自178个学区和28所公立高等院校的学生数据与福利、收入和劳动力等数据整合起来,建立统一平台,用于分析学生从幼儿园到大学的成绩。
科罗拉多州教育部CIO Daniel Domagala介绍,该项目的25个目标中有9个涉及获取数据,包括建立一套通用的课程和项目编码,以及确定整合幼儿园收集的数据的方法等。
该项目的目标是,让地方行政官员和任课教师都能够通过该系统了解学生与该州其他学生表现的长期比较结果,并且明晰收入水平、学前教育和中学课程等因素给学生上大学或找工作带来的影响。这是一项长期性的工作,最终将涉及数TB的数据。
与Domagala之前从事的石油天然气行业相比,这个项目的范围小了不少。他说:“它更多地涉及数据广度,连接不同的数据源。”但是这需要科罗拉多州在信息管理和使用方面进行重大改变。
“州政府部门原则上希望共享数据,但单就学区而言现有报告信息的方法和渠道并不统一。”Domagala说,“一般来讲,教育部门和机构都会建立一套系统来监控和跟踪,该系统有自己的数据要求和访问控制,同时,每个学区也都有各自的系统和优先事项。”
如Domagala所说的,像丹佛这些大型城市的学区在为每一所学校提供信息方面做得更好,而小型乡村学区则“提供信息方面的能力有限或没有”,这些系统间共享数据很难。
Domagala说:“不同学区间系统的差距让信息的处理、验证和核实变得很难,我们引入越多的标准就越能减少不必要的重复。因此,IT部门的工作将更多地放在帮助教职人员使用数据上,而不是收集和监管数据。”
关键在控制访问
处理医疗保健、金融和教育等信息的企业要遵守相关法律法规,严格明确不同类型数据的访问权限,这需要每家公司通过身份管理的方式牢牢控制数据的分发。虽然,从技术上来说这种做法的实现难度不大,但大数据分析本身的需求特点为需要规定谁在何时允许进行哪一种访问的企业提高了分析门槛。
“例如,允许访问退休军人事务部的庞大数据归档超出大多数企业在过去所要处理的任务范畴。”Baker说。事实上,一方面,Baker要确保每个退伍军人都可以通过自己的电子健康档案访问该政府部门所拥有的关于自己的所有信息。另一方面,他又要确保个人身份信息没有公开发布给研究人员。
Baker表示,数据分析要面临的挑战是如何提供这些供研究用的大量不含个人身份信息的数据,“在这种情况下,用户信息泄密的威胁基本已经消除,身份管理的需要就不那么迫切了。”
如果有效解决了这个问题,CIO就可以让分析人员放手分析数据,并且不用告诉他们应该运行哪些种类的报告、何时运行,也不用规定应该使用什么样的工具。IT部门变得更像是顾问和管家,而不是看门人。
为此,退休军人事务部不仅为研究人员提供了一些“重量级”的工具,同时鼓励研究人员使用自己开发的分析工具。Baker说:“尤其是在我们研究开发的领域,研究人员会使用专门为所从事的研究项目所设计的分析工具。”
罗得岛蓝十字蓝盾保险公司的Wray改组了该公司的数据分析人员团队,设立了一个“实践社区(community of practice)”,分析人员可以在这里共享工具和技术。“分析人员可以充分利用别人开发的应用程序,工作人员会跟踪和宣传这些应用程序,这样其他分析人员就更容易了解其他人开发的分析工具了。”
弗雷斯特研究公司的分析师Brian Hopkins表示,数据分析的灵活性至关重要。数据量在飞快增长,随之需要新的分析技术。如果按照传统的商业智能方案的做法,首先业务领导人要明确自己需要什么,然后由IT部门建立一个系统来满足其需要,这种模式对大数据分析来讲行不通。
大数据需要一种全新的态度。Hopkins说:“没有哪一个群体能解决所有问题。不同于传统的商业智能环境,大数据的分析和应用需要业务分析人员、数据整合专家,以及业务部门走到一起,开展通力合作。”
为了设定正确的基调,Liedel选择了一名有业务经验的经理掌管其数据报告团队:“这名经理没有数据库管理员的背景,过去这个条件是我们在考察IT管理者时必备的一项考量标准。这点对我们来说是个大变化。”
链接
中国联通借大数据提高服务水平
7月,国内三大电信运营商纷纷披露2012年上半年用户数据。其中中国联通6月份净增3G用户302.6万户,截至6月底,中国联通3G用户总数达到5753万户。
3G用户量的增加,除了给中国联通带来了大量非语音业务的收入,还带来了“困扰”。中国联通研究院副院长黄文良表示:“用户数量的激增,也带来了客户服务的压力,特别是对于基于3G网络的数据服务。过去对于语音通话的客户服务内容,只是通话时间、通话时长几个方面,现在需要涉及上网时间、地点、访问了哪些网站等诸多信息。由于此前难以向用户提供详尽的上网记录查询服务,中国联通曾一度为3G服务客户数据流量所引发的计费争议所困扰。”
一直以来,在中国联通自身看来,手中的“3G牌”是“提升其行业地位的惟一出路和必然选择,是加快经营模式转型、改善用户结构,实现增长方式转变的战略突破口”。客户服务能力如果不能跟上中国联通3G业务的发展,势必会影响用户对中国联通高速数据网络和创新内容应用的体验,“将3G打造成为中国联通收入增长的第一驱动力”也就成为了空谈。
在黄文良看来,大数据不是一个新兴事物,过去也有大数据,只是没有响应的手段和方法来解决集中存储、集中分析的问题。黄文良透露,目前中国联通正在通过采用基于至强平台及英特尔发行版Hadoop的大数据解决方案来构建移动通信用户上网记录集中查询与分析支撑系统。“这一系统可为我们的客户服务人员提供客户上网记录的快速查询服务,也可为客户本人提供高效的异常大流量上网记录自助查询服务,这将有助于解决流量投诉问题。”黄文良说。
英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔表示,大数据处理任务需要倚重开放架构平台,英特尔首要的任务就是要打造适用于大数据应用的“芯”,而后帮助合作伙伴围绕这一基础创新打造可承载大数据应用的基础设施。
据悉,在英特尔的帮助下,中国联通将在2012年10月结束整个项目的建设,届时除了为客户服务人员提供服务外,系统还可以为中国联通的业务部门提供分析、决策服务。黄文良表示,未来该系统还有望帮助中国联通更为准确地把握用户偏好,从而让中国联通能更有效地制定市场策略和开发新业务。(文/汤铭)
沈建苗 编译
