外部存储可能适合Hadoop

  使用Hadoop驱动大规模数据的分析并不一定意味着构建分布式存储的集群,一台好的旧阵列可能是一个更好的选择。

  把外部共享存储用于大批数据有很多原因。首先,尽管Hadoop可以横向扩展处理多个PB的数据,但是大多数大规模数据集很可能只有10TB到50TB的幅度。几个TB大小的传统的数据集几乎等于零处理,但恰好在横向扩展的SAN和NAS解决方案的成本效益范围内。那些共享数据集对公司现有业务流程通常不可或缺,相对于HDFS,在企业级存储上可以更有效地被控制、管理和集成。

  尽管有用于Hadoop生态系统的具备安全意识的部件,数据安全和保护是考虑使用外部存储的其它主要原因。备份、保护或者审计本机HDFS并非易事。当然,NAS和SAN内置了极好的数据保护和快照。但使用外部企业级存储的时候,一款高可用的Hadoop应用程序可能永远无法知道磁盘故障已经出现。

  用外部存储构建Hadoop,你不仅可以把存储管理分开,也可以利用独立的“增长的载体”。毋须增加其它多余的资源就可以容易地增加存储或者计算。它也有成本方面的优势。共享是外部存储的制胜之道,因为把大规模数据移进和移出Hadoop集群具有挑战性。使用外部存储的时候,多个应用程序和用户可以通过不通的客户端访问相同的“主”数据集,甚至在其正在被Hadoop应用程序使用的时候进行更新和写数据。

  在虚拟化场景中,外部存储也具有优势。我们预计这将成为在企业中部署Hadoop的常用方法。多个虚拟Hadoop节点可被托管到每个虚拟机管理程序,并可轻易地为指定的应用程序分配相关的资源。虚拟机管理程序级别的高可用/容错功能可以被用于生产级别的Hadoop应用程序。更多的资源可以被动态地应用到需要的地方,为某些Hadoop应用程序提供即便不是优越也是对应的性能。

  考虑物理Hadoop架构的一个令人信服的理由是避免昂贵的SAN,尤其当数据集越来越大时。然而在虚拟环境中,考虑外部存储可能更适合。一个原因是精简仅限于计算的虚拟Hadoop集群相当简单,但是,散发大规模数据集仍是一项挑战。通过把数据托管到外部共享存储,精简虚拟Hadoop的托管就变得几乎无关紧要了,而DRS和HA之类的虚拟机管理程序的功能可以得到充分利用。

  由于单个大规模数据集可以轻易地在多个虚拟化的Hadoop集群中被“恰当地”分享,因此有机会以相同的存储为多个客户端提供服务。通过消除数据集的多个拷贝,减少数据迁移的总量,并确保更高的可用性和数据保护,作为企业级应用程序,Hadoop变得更可管理,并轻易获得支持。在较少但存储选项相对更贵的虚拟服务器上托管虚拟化Hadoop的TCO仍然会比坚持使用专门的商品服务器物理集群的要低。

  与DAS相比,外部存储更昂贵,但这只是与存放数据有关的平衡账目的“其它”事情而已。关于使用外部存储的决定必须以TCO为基础,包括同时考虑数据集的传入来源和端到端的工作流。其它工作负载可能可以有效地共享一个单一的数据资源库,而现有的资产和技能也可以被利用。另外,高端存储的摄入、性能、容量或者可伸缩性可能有限制。

  作者:Mike Matchett 编译:全振湘

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: