大数据:奥巴马胜选的大功臣

  • 来源:计算机世界
  • 关键字:大数据,奥巴马
  • 发布时间:2013-03-28 17:04

  你可能听说过在2012年的美国大选中,如何利用某统计分析工具来预测每个州的选举投票情况,这些工具对原始的民意调查数据进行分析,然后做出比传统的选情预测专家还要准确、可靠的预测。不过,关于奥巴马的竞选团队建立起了一支100多人的分析队伍,利用分析语言R、Stata统计分析软件、HP Vertica的 MPP(大规模并行处理)分析数据库和预测模型对数十个TB的数据进行分析和处理,最终获得了大选的胜利,听说过的人并不多。实际上,这是奥巴马成功胜选的关键因素之一。

  “对于所有的一切,我们都是数据说话。我们要衡量一切......我们让数据分析介入我们所有的工作,以确保所有的事情都在我们的掌握之中。”谈到数据,奥巴马竞选团队主管吉姆·梅斯纳如此表示。

  吉姆·梅斯纳(Jim Messina)是一个非常重视数据分析的人,从总统大选一开始,吉姆·梅斯纳就希望打造一个以数据驱动、完全不同于以前的竞选活动,此后,他带领奥巴马的竞选团队一头扎入大数据的分析中。“如果哪天你没有输入数据,你那天就没有做工作”一度成为奥巴马竞选团队的口头禅。

  明确关键环节

  奥巴马竞选团队设有100多位专职分析师,其中 50人在一个专门的数据分析部门工作,其中,这50名分析师中有20位分析师工作在奥巴马的各地竞选总部中,另有30人在现场对数据进行分析和解读。

  美国民主党全国委员会数据架构总经理Chris Wegrzyn描述了他们竞选时面临的挑战、机遇以及如何建立由数据分析主导的竞选运动。wegrzyn指出,数据分析最为关键的环节还是数据本身、数据的建模和测试。通过分析核心数据可以发现选民的倾向,以针对性调整竞选策略,而建模被用来了解各个不同层次的选民,评估分析结果有助于了解某个具体行动如何影响到选民。

  竞选活动的关键绩效指标是准备投票给奥巴马的选民数除以准备投票的总人数得到的比值。奥巴马的竞选团队知道,其中有三个关键环节,做得好可以最大限度地提高这个数字:登记、说服和投票。奥巴马的竞选团队必须鼓励他们的目标人群进行选民登记,说服犹豫不决的选民投票给奥巴马,然后尽最大的努力让奥巴马的选民在选举日投票。

  对分析师进行分组

  应对挑战,奥巴马竞选团被分成了几个不同的小组。现场工作组是竞选团队的门面,他们负责组织志愿者、办理登记、鼓励选民投票等;数字组负责在线宣传、邮件广告、网上募捐以及社交媒体等;通信和媒体组负责发布奥巴马的个人信息、采访、广告投放等;财务组则负责整体的竞选筹款策略。

  在过去,所有这些部门都会采用先进的数据分析技术,但是各个组都是各自进行自己数据分析。2012年,奥巴马的竞选团队改变了这一做法,采用统一建设和集中管理。

  这其中,合适的人、合理的授权对于建立统一的数据分析环境非常关键,没有这种统一的管理,任何雄心勃勃的计划都可能会成为泡影。奥巴马竞选团队负责人吉姆·梅斯纳要求,每个分析任务的执行者都需要从吉姆·梅斯纳得到授权。此外,核心团队拥有非常丰富的分析经验,他们都是有过竞选经历的专业人士。

  正如Wegrzyn描述的那样,奥巴马的竞选团队建立了“一个分析师主导的机构,它为聪明的人自由地实现自己的想法创造了一个非常好的环境。”比如,这个基于SQL的环境能让分析师非常容易地进行分析,而不要求分析师必须具备Java或统计分析知识。 此外,该分析平台还有足够好的分析性能,让分析能跟得上分析师思维的速度。

  不过,这些都比不上为数据分析明确一个目标重要,这个目标就是在不同的数据集之间的障碍最少,不同分析师之间的障碍最少,这样每个人都可以有效地一起工作。简单地说,整个竞选团队要建设的是一个无摩擦的、能自由地实现分析师想法的大数据分析环境。

  建立分析引擎

  基于上述目标,竞选团队评估了一系列技术。比如,他们意识到,虽然Hadoop是一种重要的辅助分析技术,但是它需要很高的技术技能,不适合在需要的实时查询、分析的场合使用。他们也认识到,过去使用的专用数据分析一体设备,无法进行高效的扩展。

  最终,竞选团队选中一个高性能的数据仓库系统Vertica。这是一个基于SQL、价格合适、具有高可扩展性以及强大的性能的数据分析平台。而在统计分析方面,团队则使用了开源的R语言和Stata统计分析软件。

  这个数据分析环境的基本特性是其高可扩展性。分析环境中是一个闭环的系统,计算能力会随着处理需求的增加而增加。虽然最初的原始数据量在大数据领域里算是中低水平,约10TB的,然而,分析师通过聚集和各种试验又产生出了几十TB兆字节的数据。

  分析在行动

  在竞选过程中有两个重要的项目可以说明这个数据分析环境的高效率:AirWolf和媒体优化。

  AirWolf项目主要用于整合的现场组和数字组的工作。在以往的竞选活动中常出现的问题是现场组的行动(如记录某个投票人关于投票时的特殊兴趣)不能马上被数字组的人知道,例如,负责电子邮件推送的人不能马上进行响应的行动(如推送其感兴趣的资料、解答问题等)。而有了AirWolf,当现场组在挨家挨户的走访中与选民进行了沟通,获得了选民的一些信息,这些信息可以马上被记录到数据分析平台中。数字组可以马上跟踪到这个最新的信息,并根据具体情况给这些选民发送电子邮件,这些电子邮件会根据每个选民感兴趣的问题进行定制。这极大地提高了竞选团队的快速响应能力,帮助竞选团队说服那些左右摇摆的选民。

  媒体优化项目的目的是为了使广告投放更有针对性。在推出媒体优化项目前,电视广告的投放主要是基于广泛的人口统计,实践证明这很昂贵同时也很低效。媒体优化项目的投入使得竞选团队可以使用统计分析的方法在电视台的收视数据库中找出目标选民,然后结合其他一些资料,包括根据电视收视率得到人口统计数据以及广告定价等,统一集中到数据分析平台中进行分析。

  通过分析,奥巴马竞选团队了解了可能投票给奥巴马的选民的爱好以及其他相关情况,比如,他们习惯看的节目和这个节目的广告价格,从而使得竞选团队可以更容易地最有效的方式来投放广告。最终的结果是,奥巴马的竞选团队在有线电视上投入的竞选广告次数是其竞争对手罗姆尼的两倍,其中很多是投放给很小众的电视节目,这样做的目的是可以更经济、也更精准地把信息传达给的目标选民。

  成功经验

  所有有效的数据分析解决方案都有一些共同的特点:他们是在分析师和工程师共同努力的结果;方案在数周而不是数月内实施完成,而且随着时间不断调整;方案围绕一个可自由扩展、集中的数据仓库环境构成,如Vertica。

  由分析师主导的这个团队帮助奥巴马的竞选机构实现了一些关键目标。首先,来自不同的部门所有的数据都集成到了Vertica中,并支持对这些数据实现360度全方面探查;其次,所有问题分析师都可以快速、方便地回答,而无论这个问题所涉及的原始数据来自何处;最后,该平台利用其内置的闭环机制不断进行优化和调整。

  随着大数据分析在奥巴马2012年总统大选中获得巨大成功,不难预计,未来一个统一的大数据分析环境将成为类似活动的标准配备。

  (乐天译自美国Infoworld.com)

  Andrew Lampitt

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: