模块一：Hadoop核心框架（四）----Apache Hadoop的重要组成部分

技术2022-07-10 285

Hadopp=HDFS+MapReduce+Yarn+Common

1.Hadoop HDFS: 一个高可用、高吞吐量的分布式文件系统。

数据切割、制作副本、分散存储图中涉及到几个角色 NameNode(nn)：存储文件的原数据，比如文件名、文件目录结构、文件属性（生产时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。 SecondaryNameNode(2nn):辅助NameNode更好的工作，用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS状态的辅助后台程序，每隔一段时间获取HDFS元素据快照。 DataNode(dn):在本地文件系统存储文件块数据，以及块数据的校验 NN&&DN:既是角色名称也是进程名称，也代指电脑节点 HDFS：Master/slave

Master节点：管理和维护元数据，元数据记录了文件的块列表以及块所在的DataNode节点信息 slave：辅助存储文件数据块（DataNode）

注意：NN\2NN\DN这些既是角色名称、进程名称、也代指电脑节点

存入：对大数据拆分得到数据块由DataNode存储，可能得到多个数据块。获取：向NameNode请求获取到之前存入文件的块以及块所在的DataNode的信息，分别下载并最后合并，就得到之前的文件

2.Hadoop MapReduce:一个分布式的离线并行计算框架

拆解任务、分散处理、汇整结果 MapReduce计算=Map阶段+Reduce阶段 Map阶段就是分的阶段，并行处理输入数据； Reduce阶段就是"合"的阶段，对Map阶段结果进行汇总；

3.Hadoop Yarn：作业调度与集群资源管理的框架

计算资源协调主节点 Master：Resource Manager 从节点 Slave: NodeManager

ResourceManager(rm):处理客户端请求、启动/监控ApplicaitonMaster、监控NodeManager、资源分配与调度； NodeManager(nm):点个节点上的资源管理、处理来自ResouceManager的命令、处理来自ApplicationMaster的命令； ApplicationMaster(am):数据切分、为应用程序申请资源，并分配给内部任务、任务监控与容错。

MR任务的实际运行是需要调度执行的。

4.Hadoop Common:支持其他模块的工具模块（Configuration、RPC、序列化机制、日志操作）

Processed: 0.008, SQL: 9