模块一:Hadoop核心框架(四)----Apache Hadoop的重要组成部分

    技术2022-07-10  130

    Hadopp=HDFS+MapReduce+Yarn+Common

    1.Hadoop HDFS: 一个高可用、高吞吐量的分布式文件系统。

    数据切割、制作副本、分散存储 图中涉及到几个角色 NameNode(nn):存储文件的原数据,比如文件名、文件目录结构、文件属性(生产时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 SecondaryNameNode(2nn):辅助NameNode更好的工作,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS状态的辅助后台程序,每隔一段时间获取HDFS元素据快照。 DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验 NN&&DN:既是角色名称也是进程名称,也代指电脑节点 HDFS:Master/slave

    Master节点:管理和维护元数据,元数据记录了文件的块列表以及块所在的DataNode节点信息 slave:辅助存储文件数据块(DataNode)

    注意:NN\2NN\DN这些既是角色名称、进程名称、也代指电脑节点

    存入:对大数据拆分得到数据块由DataNode存储,可能得到多个数据块。 获取:向NameNode请求获取到之前存入文件的块以及块所在的DataNode的信息,分别下载并最后合并,就得到之前的文件

    2.Hadoop MapReduce:一个分布式的离线并行计算框架

    拆解任务、分散处理、汇整结果 MapReduce计算=Map阶段+Reduce阶段 Map阶段就是分的阶段,并行处理输入数据; Reduce阶段就是"合"的阶段,对Map阶段结果进行汇总;

    3.Hadoop Yarn:作业调度与集群资源管理的框架

    计算资源协调 主节点 Master:Resource Manager 从节点 Slave: NodeManager

    ResourceManager(rm):处理客户端请求、启动/监控ApplicaitonMaster、监控NodeManager、资源分配与调度; NodeManager(nm):点个节点上的资源管理、处理来自ResouceManager的命令、处理来自ApplicationMaster的命令; ApplicationMaster(am):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。

    MR任务的实际运行是需要调度执行的。

    4.Hadoop Common:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)

    Processed: 0.015, SQL: 9