分布式文件系统基本的几个特点:
1. 对于整个集群有单一的命名空间。
2. 数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前是无法看到文件存在。
3. 文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会有复制文件块来保证数据的安全性。
图 2 HDFS
上图中展现了整个HDFS三个重要角色:NameNode,DataNode,Client。
NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间,集群配置信息,存储块的复制。NameNode会存储 文件系统的Meta-data在内存中,这些信息主要包括了文件信息,每一个文件对应的文件块的信息,每一个文件块在DataNode的信息。
DataNode是文件存储的基本单元。它存储Block在本地文件系统中,保存了Block的Meta-data,同时周期性的发送所有存在的block的报告给NameNode。
Client就是需要获取分布式文件系统文件的应用程序。
这里通过三个操作来说明他们之间的交互关系。
文件写入:
1. Client向NameNode发起文件写入的请求。
2. NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
3. Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
文件读取:
1. Client向NameNode发起文件读取的请求。
2. NameNode返回文件存储的DataNode的信息。
3. Client读取文件信息。
文件Block复制:
1. NameNode发现部分文件的block不符合最小复制数或者部分DataNode失效。
2. 通知DataNode相互复制Block。
3. DataNode开始直接相互复制。
最后在说一下HDFS的几个设计特点:(对于框架设计值得借鉴)
1. Block的放置
默认不配置,一个Block会有三份备份。一份放在 NameNode指定的DataNode,另一份放在与指定DataNode非同一Rack上的DataNode,最后一份放在与指定DataNode同 一Rack上的DataNode上。备份无非就是为了数据安全,考虑同一Rack的失败情况以及不同Rack之间数据拷贝性能问题就采用这种配置方式。
2. 心跳检测DataNode的健康状况,如果发现问题就采取数据备份的方式来保证数据的安全性。
3. 数据复制。(DataNode失败的时候,需要平衡DataNode的存储利用率的时候,需要平衡DataNode数据交互压力的时候)
这里先说一下,使用HDFS的balancer命令,可以配置一个Threshold来平衡每一个DataNode磁盘利用率。例如设置了 Threshold为10%,那么执行balancer命令的时候,首先统计所有DataNode的磁盘利用率的均值,然后判断如果某一个 DataNode的磁盘利用率超过这个均值Threshold以上,那么将会把这个 DataNode的block转移到磁盘利用率低的DataNode,这对于新节点的加入来说十分有用。
4. 数据交验。采用CRC32作数据交验。在文件Block写入的时候除了写入数据还会写入交验信息,在读取的时候需要交验后再读入。
5. NameNode是单点。如果失败的话,任务处理信息将会纪录在本地文件系统和远端的文件系统中。
6. 数据管道性的写入。
当客户端要写入文件到DataNode上,首先客户端读取一个Block然后写到第一个DataNode上,然后由第一个DataNode传递到备份的DataNode上,一直到所有需要写入这个Block 的NataNode都成功写入,客户端才会继续开始写下一个Block。
7. 安全模式。
在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个 DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。
综合MapReduce和HDFS来看hadoop的结构:
图 3 Hadoop
在Hadoop的系统中,会有一台 Master,主要负责NameNode的工作以及JobTracker的工作。JobTracker是的主要职责就是启动,跟踪,调度各个Slave的 任务执行。还会有多台Slave,每一台Slave通常具有DataNode的功能以及TaskTracker的工作。TaskTracker根据应用要 求来结合本地数据执行Map任务以及Reduce任务。
说到这里,就要提到分布式计算的最重要的一个设计点:Moving Computation is Cheaper than Moving Data。就是在分布式处理中,移动数据的代价总是高于转移计算的代价。简单来说就是分而治之的工作,需要将数据也分而存储,本地任务处理本地数据然后归总,这样才会保证分布式计算的高效性。