云计算 第六章 云平台应用(2)

    技术2022-07-10  164

    Hadoop核心组件介绍 分布式存储系统HDFS(Hadoop Distributed File System) 分布式存储系统 提供了高可靠性、高扩展性和高吞吐率的数据存储服务

    资源管理系统YARN(Yet Another Resource Negotiator) 负责集群资源的统一管理和调度

    分布式计算框架MapReduce 分布式计算框架 具有易于编程、高容错性和高扩展性等优点

    2.HDFS的简介

    Hadoop核心组件介绍 源自于Google的GFS论文 发表于2003年10月 HDFS是GFS克隆版 两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时,命名空间状态已经完全同步了。 HealthMonitor由一个loop循环的调用一个monitorHealth rpc来检视本地的NN的健康性。如果NN返回的状态信息发生变化,那么它将经由callback的方式向ZKFC发送message。

    HDFS特点 良好的扩展性 高容错性 适合PB级以上海量数据的存储

    Hadoop核心组件介绍 基本原理 将文件切分成等大的数据块,存储到多台机器上 将数据切分、容错、负载均衡等功能透明化 可将HDFS看成一个容量巨大、具有高容错性的磁盘

    应用场景 海量数据的可靠性存储 数据归档 HDFS架构示意图

    Processed: 0.013, SQL: 10