Greenplum产品技术的那些事儿

  Greenplum是一家总部位于美国加利福尼亚州,为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务公司(现已被EMC收购)。在全球已有纳斯达克、纽约证券交易所、Skype.、FOX、T-Mobile等,在中国有中信实业银行、东方航空公司、阿里巴巴、华泰保险、中国远洋(Cosco)等大型企业用户选择了Greenplum的产品。

  当前使用的OLTP程序中,用户访问一个中心数据库,如果采用SMP系统结构,它的效率要比采用MPP结构要快得多;而MPP(大规模并行处理)系统在决策支持和数据挖掘方面显示了优势。如果操作相互之间没有关系,处理单元之间需要进行的通信比较少,那采用MPP系统就会比较适合,相反就不合适。Greenplum的架构就采用了MPP,在MPP系统中每个SMP节点也可以运行自己的操作系统、数据库等。

  众所周知,数据库本身是非常复杂的,分布式系统更是复杂中的复杂,两者结合就需要更高的条件。在当今这个数据不断膨胀的时代,采取MPP架构的数据库系统可以对海量数据进行管理。Greenplum支持50PB(1PB=1000TB)级海量数据的存储和处理,将来自不同源系统的、不同部门、不同平台的数据集成到数据库中集中存放,并且存放详尽的历史数据轨迹,业务用户不用再面对一个又一个信息孤岛,也不再困惑于不同版本数据导致的偏差,同时对于IT人员也可降低管理维护工作的复杂度。

  另外,Greenplum提供资源管理功能(workload management)来管理数据库资源,利用资源队列管理可实现按用户组进行资源分配,如Session同时激活数、最大资源值等。通过资源管理功能,可以按用户级别进行资源分配和管理用户SQL查询优先级别,同时也能防止低质量SQL(如没有条件的多表join等)对系统资源的消耗。

  Greenplum作为一个数据库产品,同样如此。怎样帮助客户从现有的平台进行迁移,甚至包含以前用的一体机,迁移到分布式的数据架构上。例如欧洲非常大的保险公司,最近刚刚把企业级仓库迁移到Greenplum。因为之前写了大量脚本,包含存储过程,量级很大,迫切需要完成迁移,完成迁移后再写新的脚本就会变得更容易。另外,完成迁移后性能会更好。Greenplum本身可以只买软件,也可以买DCA,所以用了DCAV2产品使性能有了90%的提升。

  可以有效用于欺诈检测。例如美国的一家公司,设置了一个内部平台防止识别欺诈性的报税信息,而现有平台并不能满足对大量数据的快速分析以及性能识别。该公司现在用SaaS产品来完成模型构建以及数据分析,但是SaaS在现有平台上运行速度非常慢,而且不能满足大量政府人员运行查询的需要,这样迁移到Greenplum中去,性能就会变得很快。

  除此之外,还会涉及到实时分析,企业同样也有这样的需求。有的人可能听说过12306使用GemFire来服务春节期间票务查询和订购,这个报道之后印度铁道部也采用了GemFire产品处理他们的票务信息。

  在投资银行的风控方面,摩根斯坦利利用Greenplum解决了数据存储不了,存储之后不能分析的痛点,迁移之后性能有十几倍的提升。使开发人员、BI人员或者数据科学家可以用很多种语言写模型,最典型的主要有R语言,PaaS语言,java等,以至于扩展GPDB的功能实现需求。

  Greenplum研发最主要几点优势主要在于这样一个集群,或者很多集群,包括几百台机器,甚至是上千台机器,很容易管理和使用,出了故障可以很快得到维修。这就在于Greenplum是高可用的系统,在已有案例中最多使用了96台机器的集群MPP环境。除了硬件级的Raid技术外,Greenplum还提供数据库层Mirror机制保护,即每个节点数据在另外的节点中同步镜像,单个节点的错误不影响整个系统的使用。对于主节点,Greenplum提供Master/Standby机制进行主节点容错,当主节点发生错误时,可以切换到Standby节点继续服务。

  Greenplum数据引擎是为了支持新一代数据仓库和分析处理大规模数据而建立的软件解决方案。Greenplum支持SQL和Map Reduce的并行处理功能,并能以较低的成本向管理TB量到PB量级数据的企业提供业界领先的性能。

  与Postgre SQL一致,可以有效持续保持和Postgre SQL社区的一致性,满足客户的痛点和最主要的需求。另外对云的支持也在发展中,从GPDB中可以读写S的数据,对External HDFS支持也在继续提升的规划中。

  ■佚名

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: