6miu盘搜

hadoop之分布式文件管理系统HDFS

技术2022-07-15 104

0.什么是HDFS

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用

1.HDFS 的优缺点

优点：

高容错性（1）数据自动保存多个副本。它通过增加副本的形式，提高容错性。（2）某一个副本丢失以后，它可以自动恢复。适合处理大数据，1）数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；2）文件规模：能够处理百万规模以上的文件数量，数量相当之大。可构建在廉价机器上，通过多副本机制，提高可靠性

缺点：

不适合低延时数据访问，比如毫秒级的存储数据，是做不到的无法高效的对大量小文件进行存储。不支持并发写入、文件随机修改。一个文件只能有一个写，不允许多个线程同时写；仅支持数据append（追加），不支持文件的随机修改

2.HDFS的架构

（1）NameNode：就是master他是一个主管，管理者。管理HDFS的命名空间，配置副本信息，管理数据块映射信息，处理客户端读写请求。

（2）DataName：就是Slave，NameNode下达命令，DataNode执行实际的操作。存储实际的数据块，执行数据块的读写操作

（3）Client：就是客户端。文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传；与NameNode交互，获取文件的位置信息；与DataNode交互，读取或者写入数据；Client提供一些命令来管理HDFS，比如NameNode格式化；Client可以通过一些命令来访问HDFS，比如对HDFS增删查改操作；

（4）Secondary NameNode，并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode ；在紧急情况下，可辅助恢复NameNode。

3.深入剖析HDFS原理

3.1HDFS的写数据流程

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。

2）NameNode返回是否可以上传。

3）客户端请求第一个 Block上传到哪几个DataNode服务器上。

4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。

5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。

6）dn1、dn2、dn3逐级应答客户端。

7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。

8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

3.2HDFS的读数据流程

1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。

2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。

3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。

4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

3.3NameNode和SecondaryNameNode

首先想一下NameNode的元数据是存储在哪里呢？我们先做一个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户端的请求，必然是效率过低。因此，元数据需要存放在内存中，但是如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了，因此产生在磁盘中的备份元数据FsImage。

这样有带来新的问题，当内存中共的元数据更新时，如果同时更新FsImage，就会导致效率过低，如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件（只进行追加操作，效率很高）。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中，这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。

但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode，专门用于FsImage和Edits的合并。

3.4nameNode和SecondaryNameNode的工作机制

第一阶段：NameNode启动

（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。

（2）客户端对元数据进行增删改的请求。

（3）NameNode记录操作日志，更新滚动日志。

（4）NameNode在内存中对元数据进行增删改。

第二阶段：Secondary NameNode工作

（1）Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。

（2）Secondary NameNode请求执行CheckPoint。

（3）NameNode滚动正在写的Edits日志。

（4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。

（5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。

（6）生成新的镜像文件fsimage.chkpoint。

（7）拷贝fsimage.chkpoint到NameNode。

（8）NameNode将fsimage.chkpoint重新命名成fsimage。

3.5DataName工作机制、

1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。

2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。

3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。

4）集群运行中可以安全加入和退出一些机器。

该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。

4）集群运行中可以安全加入和退出一些机器。

Processed: 0.011, SQL: 9