当前,Hadoop、Spark、Kafka等开源技术被广泛用于数据湖的建立。例如,数据湖能捕获大量复杂的数据,这些数据能够记录互相关联的商品和制造流程,并跨不同的渠道记录消费者行为。如此一来,企业可以对消费者行为做出近实时地响应,这也是Hadoop一种令人激动的应用领域。那么,企业该如何有效利用开源技术呢?在近日举办的“2016 Teradata大数据峰会”上,《中国信息化周报》记者就此采访了Teradata天睿公司旗下大数据服务公司Think Big的创始人兼总裁Ron Bodkin。
Think Big公司成立于2010年,致力于提供数据科学与工程服务,是业内首家专注于大数据咨询服务的公司,支持广泛的开源解决方案,如Hadoop、HBase、Kafka、Elasticsearch、Cassandra、Hive、Spark和Storm等多种开源技术。2014年9月,Teradata收购Think Big后,意在借助Think Big专业的咨询服务,向客户提供咨询建议,帮助他们利用各种开源大数据技术,推动业务增长。
“Think Big创立的初衷是要帮助企业从大数据中获取价值。”Bodkin向记者介绍说,“我们通过把数据科学应用于预测性模型来开展近实时的个性化活动,积极地响应问题,结合新型数据和传统数据来获取信息洞察。”
Bodkin毕业于加拿大麦吉尔大学,拥有数学和计算机科学学士学位;之后又获得麻省理工(MIT)的计算机科学硕士学位。他曾创立NewAspects公司,向企业提供面向编程方面的咨询服务,也曾是B2B应用供应商C-Bridge的联合创始人兼CTO,带领900人团队成功完成公司上市,后来在Quantcast公司任工程部副总裁,带领一支数据科学家和数据工程师团队,利用Hadoop和NoSQL进行批处理、支持近实时决策。
“加入Teradata之后,Think Big的咨询服务与Teradata数据仓库、Teradata Aster大数据探索以及Hadoop数据存储的技术产品形成整体优势,强化融合开放的统一数据架构(UDA),提供整体的大数据分析解决方案和服务。”Bodkin说。
Think Big通过累积数年的成功部署经验,积累了丰富的专业技能,在全球范围内,已经拥有银行业、保险公司、零售业、汽车业等客户,例如乐高集团、制造业的Arena及高科技行业的西部数据等。
在实际部署中,Bodkin也发现了许多问题。他看到一些用户仅仅用Hadoop来替代原有的数据库,也发现一些客户把技术应用在错误的场景。还有一些客户犹豫反复,导致未能做好规划,造成数据冗余,形成数据沼泽,一些客户因为没有接受过良好的培训,而不能完成最佳实践,更有客户不知道如何使用这些工具。
而这些问题Think Big可以给他们提供帮助,Think Big的优势是对众多开源技术十分熟悉。Bodkin介绍目前Spark和Hadoop是成熟并且很常用的技术,Cassandra和Kafka也已有一些应用场景。
那么Think Big是如何掌握多种多样又日新月异的开源技术呢?“为了保持技术优势,我们采取很多措施,我们在开源社区非常活跃,并通过参加一些相关的会议,跟相应技术人员和同行进行互动。当重点领域出现新的技术,我们会对这些重点领域的技术进行相关测试,和社区以及合作伙伴一起,对新技术的可行性及价值进行判断。”Bodkin补充说。
■本报记者 霍娜
……
关注读览天下微信,
100万篇深度好文,
等你来看……