关注公众号凡花花的小窝,收获更多的考研计算机专业编程相关的资料 Yarn设计原理与基本构成–多角度理解 YARN 资源管理系统的主要功能是对集群中各类资源进行抽象,并根据各种应用程序或者服务的要求,按照一定的调度策略,将资源分配给它们使用,同时需采用一定的资源隔离机制防止应用程序或者服务之间因资源抢占而相互干扰。
YARN 正是一个资源管理系统,它的出现弱化了计算框架之争,引入 YARN 这一层后,各种计算框架可各自发挥自己的优势,并由 YARN 进行统一管理,进而运行在一个大集群上。
目前各种开源系统都在开发 YARN 版本,包括 MapReduce、Spark、Storm、HBase 等。
MapReduce2.0基本原理与架构 MapReduce2.0原理与架构–MapReduce的应用场景 2.不擅长方面 源自于Google的MapReduce论文 发表于2004年12月 Hadoop MapReduce是Google MapReduce克隆版
MapReduce特点 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理
1.定义及特点 实时计算 像MySQL一样,在毫秒级或者秒级内返回结果
流式计算 MapReduce的输入数据集是静态的,不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的
DAG计算 多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出 MapReduce2.0原理与架构–MapReduce编程模型
场景介绍 场景:有大量文件,里面存储了单词,且一个单词占一行 任务:如何统计每个单词