怎样避免大数据分析失败
- 来源:计算机世界 smarty:if $article.tag?>
- 关键字:大数据,分析 smarty:/if?>
- 发布时间:2017-09-22 10:02
请遵循这六个最佳实践,超越竞争,创造新的收入来源,更好地为客户服务。
大数据和分析能够改变游戏规则,为您提供深度分析,帮助您在竞争中领先,创造新的收入来源,更好地为客户服务。
大数据和分析也可能导致巨大的失败,浪费大量的时间和金钱——更不用说会失去才华横溢的技术专家,他们厌倦了那些令人失望的管理失误。
怎样避免大数据失败呢?从基本的业务管理角度来看,一些最好的做法是显而易见的:一定要有公司最高级别的行政人员参与,确保需要的所有技术投资获得足够的资金,并引入所需的专业知识和/或良好的培训。如果不先解决这些基本问题,其他的什么都不重要。
假设您已经解决了这些基本问题,那么大数据分析成功与失败的区别在于您怎样处理大数据分析的技术问题和挑战。下面介绍的最佳实践可以帮助您站在成功的一边。
1.仔细选择您的大数据分析工具
很多技术的失败源于这样一个事实,即企业购买和实施的产品好像正是他们想要的。任何厂商都可以把“大数据”或者“高级分析”之类的词用在产品描述上,利用这些术语来进一步炒作。
但是产品不仅在质量和效果上有很大的差别,而且应用重点也不同。因此,即使您选择了技术含量很高的产品,也未必是您真正需要的。
几乎所有的大数据分析都有一些基本功能,比如围绕数据转换和存储架构(想想Hadoop和Apache Spark)的功能。而在大数据分析中也有很多细分功能,您应该选择能够满足自己技术战略要求的细分产品。这些细分功能包括挖掘、预测分析、实时解决方案,人工智能和商业智能仪表板等。
在决定购买任何大型数据分析产品或者存储平台之前,您需要弄清楚真正的业务需求和问题是什么,选择能够有效解决这些具体问题的产品。
例如,由于编译庞大的数据集会非常复杂,您会选择使用人工智能来分析非结构化数据的认知大数据产品。电信公司沃达丰大数据全球业务主管Israel Exposito说,但您不会针对结构化和标准化数据使用认知工具,您可以从众多的分析产品中选择一款并部署它,以更合理的价格实时获得高质量的深度分析结果。
Exposito说,明智的做法是,在为您的产品环境选择一款产品之前,使用至少两款产品来验证概念。该产品还应该与您相关的企业平台有接口。
每一大数据分析工具都需要在后端系统中开发数据模型。这是项目中最重要的部分。因此,您一定要让系统集成商和业务领域专家在项目工作中携手合作。不要急,第一次就把它做好。
重要的是要记住,始终要提供正确的数据,并转换成业务语言,这样用户就可以完全理解输出,从而可以使用它来发现机会,或者改进流程。
2.这些工具一定要易于使用
大数据和高级分析非常复杂,但业务用户所采用的,并用于理解数据的产品没必要这么复杂。
为业务分析部门提供用于数据发现以及分析和可视化功能的简单、有效的工具。
域名注册商GoDaddy商业智能工具拓展专员Sharon Graves说,自己的公司很难找到合适的组合工具。它必须能够简单方便地快速实现可视化,而且有足够的能力进行深度分析。GoDaddy能够找到产品,这些产品让企业用户很容易找到相应的数据,然后自己生成数据可视化。这使得分析部门能腾出时间去进行更高级的分析工作。
最重要的是,不要给非技术业务用户提供程序员级的工具。不然,他们会变得沮丧,可能会再去使用以前的工具,而这些工具并不能胜任工作(否则,您就不会有大数据分析项目)。
3.项目和数据要与实际业务需求相一致
大数据分析工作可能失败的另一个原因是,它最终成了一个要去解决不存在问题的解决方案。信息服务提供商Experian全球数据实验室首席科学家Shanji Xiong说,这就是为什么您必须把要满足的业务挑战和需求纳入到相应的分析问题中的原因。
关键的一点是,在项目早期就要让具有很强的分析背景的领域专家参与进来,与数据科学家合作来确定问题。
下面是Experian自己的大数据分析计划的一个例子。当开发打击身份欺骗的分析解决方案时,难点在于评估姓名、地址和社会保障号码等个人身份信息(PII)是否合法。还有一个难点是,当一名客户申请贷款时,所使用的一组身份是否是合法拥有者的身份。这些难点可能会同时存在。
第一个难点是“合成身份”的问题,Xiong说,这需要一个分析模型在客户级或者PII级评估身份合成的风险。第二个难点是应用程序欺骗问题,需要在应用程序级开发用于评估欺骗风险的评分系统。Experian必须理解这些不同的问题——即使这些问题最初被认为是表现不一样的同一问题,然后建立合适的模型,进行分析以解决问题。
Xiong说,当把一组PII提交给两家金融机构申请贷款时,通常要求是针对合成风险应返回相同的得分,但这通常不是应用程序欺骗评分系统所必须的功能。
必须把正确的算法应用于正确的数据,才能实现商业智能,做出准确的预测。在建模过程中,收集并包含相关的数据集总是比精确的调整机器学习算法更重要,因此应把数据处理工作视为头等大事。
4.建立数据湖,不要舍不得带宽
顾名思义,大数据涉及到大量的数据。在过去,很少有企业能够存储这么多的数据,更不用说组织这些数据并进行分析了。但是今天,高性能存储技术和大规模并行处理技术已经应用得非常广泛了——即在云中,也在本地系统中。
然而,存储本身是不够的。您需要一种方法来处理输入到大数据分析系统中的各种类型的数据。这就是Apache的Hadoop发挥其天才之处,它能够存储和映射庞大的、不同的数据集。这种存储库通常被称为数据湖。实际的湖泊一般有多条河流流入,会有很多种类的植物、鱼和其他动物;数据湖一般有多个数据源输入,含有多种类型的数据。
但是数据湖不应该成为数据的垃圾场。亚利桑那州国家大学计算研究主任Jay Etchings说,您应该想好怎样汇集数据,以有意义的方式增加数据价值。数据可以是完全不同的,但是使用MapReduce和Apache Spark等工具进行分析时,就应该使用可靠的数据架构对数据进行转换。
创建一个数据湖,其中,输入、索引和标准化等都是大数据策略精心设计好的组成部分。Etchings说,如果没有一个清晰的认识和明确的蓝图,大多数数据密集型的计划注定要失败。
同样,拥有足够的带宽是非常重要的;否则数据不可能从各种来源流入到数据湖中,业务用户也不能很快地使用数据。Etchings说,要实现拥有大量数据资源的承诺,不仅需要支持每秒数百万次I/O操作(IOPS)的高速硬盘,而且还需要连接节点和处理引擎,这些节点和处理引擎可以在生成数据时方便地访问数据。
从社交媒体到数据流路由,速度对于实时分析尤其重要。因此,用最快的互连构建您的数据湖。
5.把安全设计到大数据的各个方面中
计算基础设施组件的高度异构性极大地提高了企业从数据中获取有意义的深度分析结果的能力。但有一个缺点:Etchings说,系统在管理和安全上会非常复杂。很多大数据分析系统都涉及到巨量的数据,其任务也都是非常关键的,如果不能在保护系统和数据方面采取足够的预防措施,那在很大程度上就是自找麻烦。
企业采集、存储、分析和共享的大部分数据都是客户信息——其中一些是个人信息和身份信息。如果这些数据落入别人手中,结果是可以预测的:法律上的损失是诉讼,可能还有监管罚款,品牌和声誉受损,客户也不会满意。
您的安全措施应包括部署基本的企业工具:实用的数据加密、身份和访问管理,以及网络安全。您的安全措施还应包括为能够正确访问和使用数据所要遵从的政策以及相关的培训。
6.把数据管理和质量放在首位
确保良好的数据管理和质量应该是所有大数据分析项目的标志——否则会很有可能失败。
您应该做好控制工作,以确保数据是最新的、准确的,并能够及时交付。作为其大数据计划的一部分,GoDaddy提供了报警功能,如果数据更新失败或者运行推迟,会通知管理员。此外,GoDaddy对关键指标进行数据质量检查,当这些指标不符合预期时,会发送警报。
确保数据质量和治理的一个关键点是聘请技术熟练的数据管理专家,其中包括数据管理主管以及监管这些领域的高管。考虑到这些举措的战略重要性,企业在数据管理、治理和政策方面确实应拥有数据所有权。
Lamont Wood是纽约《计算机世界》的特约撰稿人。
原文网址:
http://www.infoworld.com/article/3212945/big-data/how-to-avoid-big-data-analytics-failures.html
作者/Bob Violino 编译/杨勇