大数据基础

    技术2023-08-09  96

    Hadoop

    HadoopHadoop简介Hadoop各个版本的优缺点:

    Hadoop

    Hadoop简介

    Hadoop是提供分布式的存储(一个文件被拆分成很多个快,并且以副本的反式存储在各个节点中)和计算。

    分布式文件系统:HDFS实现将文件分布式存储在很多的服务器上。

    HDFS特点:扩展性、容错性、海量数量存储 工作机制:将文件切分为指定大小的数据块并以多副本存储在多个机器上。 数据切分、多副本、容错等操作对用户是透明的

    分布式计算框架:MapReduce实现在很多机器上分布式并行计算 源自于Google的MapReduce论文、论文发表于2004year 扩展性、容错性、海量数据离线处理

    Hadoop优势:高可靠性 数据存储:数据块多副本 数据计算:重新调度作业计算 高扩展性:存储/计算资源不够时,可以横向的线性扩展机器,一个集群可以包含数以千计的节点 助于目录的生成

    Hadoop各个版本的优缺点:

    Apache: 优点:开源, 缺点:不同版本不同框架之间整合 jar冲突。。。

    CDH: 优点:cm(Cloudera manager)通过页面一键安装各种框架、升级 缺点:cm不开源,与社区版本有些出入 下载地址:http://archive.cloudera.com/cdh5/cdh/5/

    HDP:企业发布自己的数据平台可以直接基于页面框架进行改造 优点:原装Hadoop、开源、支持tez 缺点:企业级安全不开源

    Processed: 0.009, SQL: 9