如今,分布式文件系统是大型分析非常重要的一环,即使在使用Spark仍然需要将大量的数据快速存入内存,所以文件系统一定是高速率的。但其实HDFS并不像标榜的那样好,它是大数据分析的薄弱环节。
我们知道,HDFS中的文件分配表的核心是NameNode,客户端主要通过NameNode执行数据操作,DataNode会与其他DataNode进行通信并复制数据块以实现冗余,这样单一的DataNode损坏就会导致集群的数据丢失。但是NameNode一旦发生故障,后果就会非常严重。虽然NameNode可以故障转移,但是花费大量的时间,这也意味着序列中会有更多的等待时间。此外,HDFS的垃圾回收,尤其是Java垃圾回收还需要占用大量的内存,一般是本机有效内存的10倍左右。
因为HDFS的设计更多是建立在响应“一次写入、多次读写”任务的基础上,多数情况下,分析任务都会涉及数据集中的大部分数据,也就是说对HDFS而言,请求读取整个数据集要比读取一条记录更加高效,所以HDFS在语言选择方面更偏向于基础语言,而不是高级语言。
传统的操作可以用更短的时间来开发部署,维护成本更低、安全性更好。业内有这样一种说法,大多数操作系统支持C语言、汇编和Java的原因是文件系统处于一个较低水平。HDFS的工具和其他文件系统工具相较存在差距,比起曾经处理的任何文件系统或分布式存储,HDFS周围的工具表现不佳。基于Java的文件系统只能搭上IT人员最喜爱的POSIX工具的末班车,尝试过NFS挂载HDFS吗?其它的HDFS工具的安装也相对较复杂,相反如果使用REST bridge Tool和客户端命令行就会非常容易。
HDFS支持原生代码扩展,提高了运行效率。另外社区也为NameNode的发展作出了很多贡献。如果想要打造一个高端的系统,那么必须打破监测和诊断工具中的NameNode瓶颈,总之在操作系统上使用基于C或C++的较为成熟的分布式文件系统往往是更好的选择。
早期的Hadoop企业部署基本上是在本地完成,随着Spark和云部署的崛起,使用Amazon S3作为数据源的情况渐渐多了起来。Hadoop供应商都期望能够出现更为统一的Hadoop平台,期望HDFS能够与安全组件集成。Spark本身就因文件系统的多样性而存在很多矛盾,所以想要和文件系统紧密集成几乎是不可能。这样MAPR FS文件系统渐渐引起了企业的兴趣,MAPR FS没有NameNode,而是采用了更标准和熟悉的集群方案,MAPR的分区设计很好地避免了瓶颈。
除了上述的分布式文件系统,还有很多的分布式文件系统可以供选择,例如Ceph、Gluster,其中Gluster是一种更为标准的分布式文件系统,擅长I/O操作。目前大多数人选择使用Spark来存储文件,是因为他们对于Spark更加熟悉,而并非是因为它性能好、速度快。大型HDFS安装的迁移并不可能一蹴而就,但随着时间的迁移,未来在Spark和云项目中会越来越少看到HDFS,也许HDFS会脱离YARN,单独成为Hadoop的一部分。
……
关注读览天下微信,
100万篇深度好文,
等你来看……