大数据呼唤数据集成新思维
- 来源:互联网周刊 smarty:if $article.tag?>
- 关键字:大数据,数据集成 smarty:/if?>
- 发布时间:2013-11-29 15:41
大数据技术的发展为数据管理开辟了一条新的道路,这也为数据集成创造了新的机会。高质量的数据对于数据集成项目的成功具有关键的作用,而不关心数据质量的数据集成注定将会失败。除了与数据质量和主数据管理更好的集成以外,用户还希望工具能够支持更加广泛的数据集成风格与功能。
人类已经进入以数据为中心的时代,也即:“大数据”时代。在这个时代里,数以亿计的计算机和移动设备正在持续地创造着越来越多的数据。爆炸式增长的、结构化、非结构化数据创造着巨大的机遇,如何从如此庞大而复杂的数据中挖掘出企业需要的商业价值成为所有企业面临的挑战。
大数据意味着包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。不管是大交互数据,还是大交易数据,处理分析非结构化数据一直以来都是数据处理的难点。数据集成作为挖掘数据价值的重要一步在整个数据分析中具有重要的作用。
对于绝大多数企业而言,信息系统建设通常具有阶段性和分布性的特点,该特点不可避免的导致了“信息孤岛”现象的存在。“信息孤岛”就是指不同软件间,尤其是不同部门间的数据信息不能共享,造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性,严重地阻碍了企业信息化建设的整体进程。为解决这一问题,人们开始关注数据集成研究。
数据集成就是将若干个分散数据源中的数据,逻辑地或者物理地集成到一个统一的数据集合中。其核心任务是将相互关联的分布式异构数据源集成到一起,让用户以透明的方式访问这些数据源,以便消除信息孤岛现象。
数据集成市场正处于黄金时代
著名信息技术研究咨询公司Gartner在其发布的“2013年数据集成工具魔力象限报告”中表示,对集成选项功能完整性的需求在快速上涨。随着数据碎片化程度的不断加剧,企业希望能够有一款灵活的产品,能够快速融入到现有的数据管理投资中,并提供更多的功能。
数据集成可以满足人们不断增长的信息需求,使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用,实现数据源的凝聚放大效应,形成以业务为驱动的动态数据价值链。
大数据技术的发展为数据管理开辟了一条新的道路,这也为数据集成创造了新的机会。在这种情况下,数据集成就从传统的数据提取、转换和加载过程(ETL)变成了更加灵活的数据提取、加载和转换的方法(ELT)。在过去,ETL形式中的数据集成通常是“一个自包含过程”,它只是简单的专注于将干净、合并的数据从源系统迁移至目标数据仓库。但是,现在情况变得不同了,现在数据可以存在于任何地方,如果用户需要在另一个系统上使用,只要在需要的时候调用就可以了。
Gartner认为,市场上对集数据集成、数据质量以及主数据管理于一体的工具需求在不断的增长。高质量的数据对于数据集成项目的成功具有关键的作用,而不关心数据质量的数据集成注定将会失败。除了与数据质量和主数据管理更好的集成以外,用户还希望工具能够支持更加广泛的数据集成风格与功能。
包括Hadoop等大数据技术,以及NoSQL数据库技术在内的技术对数据集成工具的开发都产生了重大影响。未来数据集成工具发展的重要方向就是支持分布式架构的集成。包括低成本,基于订阅模式的收费方法以及基于云在内的交付模式,也是未来数据集成市场的一个发展方向。
多方挑战考验数据集成
单纯地看,数据集成在现实应用中是一个非常简单的问题,也就是对多源数据进行清理和转换,然后将数据加载到适当的数据存储区中以便进行下一步的分析和处理。但是,事实却不是这么简单。数据集成面临着多方挑战。
首先是技术方面的挑战。最具针对性的挑战包括:多种源和多种不同的格式;结构化、半结构化和非结构化数据;在不同时间从源系统获得的数据信息;庞大的数据量。即使在理想的情况下,也必须以某种方式在一个位置获得所需的所有数据。同时,对实时性的要求增加了数据集成的困难。
其次来自组织的挑战。在大型组织中进行数据集成还会存在来自权力的压力。数据是信息,代表着一种权力,但是让人们相信数据是企业有价值的资产是一件颇具挑战的事情。要实现企业数据集成的成功,就需要所有数据源的使用者能够了解项目的用途和方向。这需要所有的组织成员能够通力合作。
最后就是经济压力。数据集成成本的增加主要是因为数据集成的过程可能会因为权力而变得缓慢而曲折,清理数据以及从多种源数据映射也会变得更加困难。当需要解决这些问题的时候,数据集成引起的额外费用都将会被记入整个数据集成体系结构。另外,随着组织发展过程中对数据入库和商业智能需求的增加,有缺陷的数据集成体系结构将变得越来越难以维护,这样总体拥有成本会增加。
虚拟化提高数据集成效率
虚拟化意味着可以不受物理条件的限制,能够迅速构建物理环境,以便支持用户在特定时刻对特定业务的需求。现在已经可以实现对服务器、存储以及网络实现虚拟化。
面对海量数据的处理需求,我们需要摆脱结构化的数据仓库。低成本的存储在业务数据存储方面可以节省成本。高昂的存储成本限制了系统处理数据的质量。对于海量数据的处理需要做到弹性存储,弹性存储意味着企业不会在期望操作的数据规模或类型上受到限制,从而可以降低使用数据仓库无法获得最佳结果的风险。
数据虚拟化可以将不同的数据连接起来,让业务运营与数据集成流程变得更加灵敏。大多数情况下,企业主要运用传统数据集成技术,从交易系统中获取数据,将其移植到数据仓库中以作商务智能和数据分析等用途。然后,对于需要实时决策的应用程序,这种方式就会面临挑战。
数据虚拟化拥有一个可置于企业应用程序、数据仓库、交易数据库、门户网站及其他数据源之上的提取层,能使企业在无需创建存储信息备份的环境下,对来自不同系统中的数据进行整合。这样一来就省去了从源系统中复制数据或移除数据的麻烦,减少了IT人员的工作量,也降低了数据出错的几率。
数据虚拟化还支持在源系统中交易数据更新的写入,这也是拥护者们看中这项技术的优势之一。正因为如此,数据虚拟化才会从数据联合与企业信息集成(EII)技术中脱颖而出。后两项为更早推出的类似技术,同样为了简化不同源阵列的数据分析流程。尽管三种技术在性能方面都有相似之处,甚至有“换汤不换药”之嫌,但是EII技术提供的是一种数据阵列与报表的只读处理方法。
其实,早在十年前就有数据联合了,其产生的用意本在于取代ETL工具和数据暂存区,不用再建立新的数据市场。可惜评论家认为数据联合从一开始就带有重大缺陷,它只能与巨型数据套件匹配,且其运行环境需要极为复杂的数据转换。更有甚者,很多人都认为数据联合与面向服务架构(SOA)的粘附性很强。
但是随着企业不再将大数据分析作为一项孤立的应用来看待,并注意使用分析结果来驱动他们的主流业务流程,数据质量和无缝上游整合就变得更为重要。并且大数据架构灵活性的提升也带来了更高级别的发展和管理复杂性,这可能需要新的流程和技巧,甚至是在IT部门中的一场文化变革。
本刊记者 韩蕊