达梦“模块化数据中心”筑梦大数据时代
- 来源:中国计算机报 smarty:if $article.tag?>
- 关键字:达梦数据库,大数据,数据中心 smarty:/if?>
- 发布时间:2015-04-28 13:21
——武汉达梦数据库有限公司云数据中心解决方案
模块化数据中心已经成为解决当今企业所面临的不断增长的数据处理需求的一种普遍的解决方案,越来越多的政府单位、企业正在考虑借助模块化数据中心的诸多优势和其独特的能力,以满足各方面的数据处理需求。
PB级大数据带来的挑战
互联网时代,尤其是社交网络、电子商务、移动通信等数据交流方式把人类带入一个以“PB”为单位的结构与非结构数据信息的新时代。那么PB级数据是什么概念?一提到数据量级,人们通常会联想到美国国会图书馆。麦肯锡首席分析师Michael Chui指出,美国国会图书馆“在2011年4月前已经收集了235TB的数据,而一个PB相当于它的4倍”。
未来10年,人均实时消费数据将达到PB级,是目前数据消费TB级的1000倍,如此大的数据处理需求将给现有的以计算为中心的传统数据中心带来一系列巨大挑战,包括实时数据处理、按需动态资源分配及调整、大规模系统运行的能效等诸多方面。从业务层面来看,亟需解决软硬件资源统一管理、按需分配、合理调度,信息资源的共享交换、池化管理,形成一套“合规”的资源服务池,并从该池中按需获取所需资源或服务。
“以数据为中心”的新型数据中心
在这种情况下,传统的数据中心必然需要转型,向以数据为中心的方向发展,能够灵活地将任务调度到数据位置较近的处理单元。传统数据中心的设计目标是能够持续工作,设计者要求所设计的产品能够用几百年不损坏、保持正常工作。设计者心目中的数据中心是一大堆物理设备孤立的堆砌。事实上,建立传统数据中心最初的动机,就是管理好日益增多的物理设备,保持良好的环境,不要损坏和丢失,出了故障有人维修。传统的数据中心资源孤立,且不能实现在整个数据中心的实时、动态调度,这也是传统数据中心资源利用效率低下的根本原因。
随着数据中心的发展,传统数据中心的问题逐渐显露。达梦数据中心在充分吸收传统数据中心的问题基础上,推出了“以数据为中心”的新型数据中心理念。从逻辑上看,达梦的新型数据中心提供一个全局的资源目录,包含了各种应用系统的所有数据,构成了一个全局统一的逻辑数据库。当用户向这个虚拟的逻辑数据库发起数据访问请求时,它首先通过检索全局资源目录,回答该数据是否存在,然后从资源目录信息中获取其位置信息,如果该数据从物理位置上是存放在本地,则从本地物理库中获取,否则根据资源目录信息中获取的远程位置信息,通过统一的远程数据访问接口来获取实际数据。
由此可见,达梦的新型数据中心相当于是一个庞大的全局化逻辑库,可以根据业务的需要,采用某种算法。而实际的物理库中只会存放那些使用频率相对较多的数据,这样既可以节约存储资源,也能减少数据集中后所带来的数据更新的代价。同时根据数据的访问热度,可实现对物理库中数据的动态存储管理,将常使用的数据放到速度最快的内存当中,次之的数据放到固态盘,一般的数据放到磁盘,较长时间不用的数据则移到外部磁盘磁带中,而长期无人使用的数据会被清除以腾出空间。
模块化实现高效部署
物联网、互联网等信息技术的快速发展带来了数据爆炸式增长,为了适应大数据的发展趋势,数据中心不断扩大规模、提升性能,以支持越来越复杂的海量数据管理需求。
出于性能的考虑,一般对于经常要使用的数据、以及分析应用所需要的数据,要从远程数据源中将数据抽取、交换到数据中心的目标数据库进行集中处理。数据集中带来处理方便、性能提升等好处的同时,也带来了数据一致性的问题。如何以较小的代价、最快的速度将数据源中发生变化的数据传递到数据中心目标数据库中进行更新,以保持两边数据的一致,已成为数据中心建设必须要考虑的问题。而达梦突破传统解决之道,采取模块化的数据中心建设思想,不仅实现数据同步、还实现了显著的性能优化。
首先,在数据交换层面,传统的数据交换采用时间戳、触发器、MD5等方式来捕获增量数据,使数据源的数据库产生较大负载,延时也比较大。当数据量很大,同步时间要求很短的时候,传统方案难以同时满足处理性能和数据一致性的要求。达梦的模块化数据中心则采用读取数据源的数据库运行日志文件的方法,从中分析出数据变化的情况,通过监控日志文件的变化,能近乎实时地捕获到数据变化。值得一提的是,这只占用的非常少量的操作系统监控和读取文件资源,对被监控的数据库实例的运行基本没有影响。
其次,在数据中心建设方面,传统的数据中心建设周期非常长,而达梦模块化数据中心在现场部署的速度非常高效,主要是因为模块化的数据分类预制,从数据处理的全生命周期这个角度来说,它主要分为数据采集抽取、数据整合管理、面向业务的数据服务、多样化数据应用等四个方面,各自拥有统一接口、统一标准、统一顶层设计的模块化产品,这些以达梦数据库产品为核心的产品集合,为模块化数据中心的快速部署奠定了坚实基础。
我们沿着数据管理生命周期的顺序,通过了解模块化数据中心内部的管理机制,可发现达梦新型数据中心优于传统数据中心的特色亮点:
数据交换:从其他业务系统采集数据、访问数据时,数据交换平台可针对交换频繁、数据量极大的自动采集需求,使用达梦异构数据实时同步工具处理“海量密集,实时异构”的采集需求。而针对交换频度较低,但有一定清洗转换要求的自动采集需求,使用ETL工具定时处理“定期采集,清洗转换”的采集需求。
数据管理:数据交换、采集完成后,需要对数据进行整合和梳理,数据管理平台可实现该类需求。对于整合来的各类项目数据资源,针对多种采集渠道、承载方式,数据资源管理平台均采用一致的方式进行可视化管理和维护,将碎片离散的信息整体呈现。同时,针对各类信息资源的业务属性描述、来源信息等内容,通过元数据管理进行统一描述、统一归集、统一管理,使信息资源的重用成为可能。
数据分析:数据整合后进行服务发布运用的过程,主要基于数据分析服务平台来实现。针对数据整合建立数据仓库、联机分析的需求,主要采用BI分析平台来实现数据仓库建设、联机分析设计、联机分析呈现等功能。
数据呈现:针对数据选择性呈现需求,基于数据门户可实现数据的组合及筛选处理,完成数据面向不同人员、不同环节、不同方式的选择性呈现能力。而数据服务平台,则提供基于已整合数据的非可视化(API,REST,WEB SERVICE)数据服务接口,来满足数据的横向比对、纵向比对、跨业务系统的对接需求。针对数据中心及业务系统运转的情况的可视化需求(如系统承载能力、访问状况、异常信息等),主要使用运维监控系统,通过监控门户、仪表盘、驾驶舱进行多角度可视化呈现。针对管数据的可视化呈现需求,基于数据展现应用提供基于已整合数据的可视化组件设计及呈现。
结语
在大数据时代,达梦数据库坚持创新发展的技术路线,业界率先推行新型模块化数据中心建设理念,以数据流为主线,实现从大数据存储、数据交换、数据管理、数据分析到数据应用的全生命周期管理,并结合多年的项目建设与实践经验,致力于为更多政府机关、各行业领域单位提供大数据平台咨询与技术服务,作为国产数据库品牌的中坚力量、领军企业,为国产信息化建设贡献力量!