融合开源让大数据分析更具价值

来源:中国信息化周报
关键字:大数据分析,Think Big,Hadoop,Spark
发布时间:2016-06-23 11:05

　　当前，Hadoop、Spark、Kafka等开源技术被广泛用于数据湖的建立。例如，数据湖能捕获大量复杂的数据，这些数据能够记录互相关联的商品和制造流程，并跨不同的渠道记录消费者行为。如此一来，企业可以对消费者行为做出近实时地响应，这也是Hadoop一种令人激动的应用领域。那么，企业该如何有效利用开源技术呢？在近日举办的“2016 Teradata大数据峰会”上，《中国信息化周报》记者就此采访了Teradata天睿公司旗下大数据服务公司Think Big的创始人兼总裁Ron Bodkin。

　　Think Big公司成立于2010年，致力于提供数据科学与工程服务，是业内首家专注于大数据咨询服务的公司，支持广泛的开源解决方案，如Hadoop、HBase、Kafka、Elasticsearch、Cassandra、Hive、Spark和Storm等多种开源技术。2014年9月，Teradata收购Think Big后，意在借助Think Big专业的咨询服务，向客户提供咨询建议，帮助他们利用各种开源大数据技术，推动业务增长。

　　“Think Big创立的初衷是要帮助企业从大数据中获取价值。”Bodkin向记者介绍说，“我们通过把数据科学应用于预测性模型来开展近实时的个性化活动，积极地响应问题，结合新型数据和传统数据来获取信息洞察。”

　　Bodkin毕业于加拿大麦吉尔大学，拥有数学和计算机科学学士学位；之后又获得麻省理工（MIT）的计算机科学硕士学位。他曾创立NewAspects公司，向企业提供面向编程方面的咨询服务，也曾是B2B应用供应商C-Bridge的联合创始人兼CTO，带领900人团队成功完成公司上市，后来在Quantcast公司任工程部副总裁，带领一支数据科学家和数据工程师团队，利用Hadoop和NoSQL进行批处理、支持近实时决策。

　　“加入Teradata之后，Think Big的咨询服务与Teradata数据仓库、Teradata Aster大数据探索以及Hadoop数据存储的技术产品形成整体优势，强化融合开放的统一数据架构（UDA），提供整体的大数据分析解决方案和服务。”Bodkin说。

　　Think Big通过累积数年的成功部署经验，积累了丰富的专业技能，在全球范围内，已经拥有银行业、保险公司、零售业、汽车业等客户，例如乐高集团、制造业的Arena及高科技行业的西部数据等。

　　在实际部署中，Bodkin也发现了许多问题。他看到一些用户仅仅用Hadoop来替代原有的数据库，也发现一些客户把技术应用在错误的场景。还有一些客户犹豫反复，导致未能做好规划，造成数据冗余，形成数据沼泽，一些客户因为没有接受过良好的培训，而不能完成最佳实践，更有客户不知道如何使用这些工具。

　　而这些问题Think Big可以给他们提供帮助，Think Big的优势是对众多开源技术十分熟悉。Bodkin介绍目前Spark和Hadoop是成熟并且很常用的技术，Cassandra和Kafka也已有一些应用场景。

　　那么Think Big是如何掌握多种多样又日新月异的开源技术呢？“为了保持技术优势，我们采取很多措施，我们在开源社区非常活跃，并通过参加一些相关的会议，跟相应技术人员和同行进行互动。当重点领域出现新的技术，我们会对这些重点领域的技术进行相关测试，和社区以及合作伙伴一起，对新技术的可行性及价值进行判断。”Bodkin补充说。

　　■本报记者霍娜

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容

融合开源 让大数据分析更具价值

融合开源让大数据分析更具价值