Hadoop是提供分布式的存储(一个文件被拆分成很多个快,并且以副本的反式存储在各个节点中)和计算。
分布式文件系统:HDFS实现将文件分布式存储在很多的服务器上。
HDFS特点:扩展性、容错性、海量数量存储 工作机制:将文件切分为指定大小的数据块并以多副本存储在多个机器上。 数据切分、多副本、容错等操作对用户是透明的
分布式计算框架:MapReduce实现在很多机器上分布式并行计算 源自于Google的MapReduce论文、论文发表于2004year 扩展性、容错性、海量数据离线处理
Hadoop优势:高可靠性 数据存储:数据块多副本 数据计算:重新调度作业计算 高扩展性:存储/计算资源不够时,可以横向的线性扩展机器,一个集群可以包含数以千计的节点 助于目录的生成
Apache: 优点:开源, 缺点:不同版本不同框架之间整合 jar冲突。。。
CDH: 优点:cm(Cloudera manager)通过页面一键安装各种框架、升级 缺点:cm不开源,与社区版本有些出入 下载地址:http://archive.cloudera.com/cdh5/cdh/5/
HDP:企业发布自己的数据平台可以直接基于页面框架进行改造 优点:原装Hadoop、开源、支持tez 缺点:企业级安全不开源