大数据特征 4V特征: Volume(大数据量):90% 的数据是过去两年产生 Velocity(速度快):数据增长速度快,时效性高 Variety(多样化):数据种类和来源多样化 结构化数据、半结构化数据、非结构化数据 Value(价值密度低):需挖掘获取数据价值 固有特征 时效性 不可变性
HDFS特点 HDFS优点: 支持处理超大文件 可运行在廉价机器上 高容错性 流式文件写入 HDFS缺点: 不适合低延时数据访问场景 不适合小文件存取场景 不适合并发写入,文件随机修改场景
简单的一些l命令
创建存放数据文件的目录:
hdfs dfs -mkdir /hdfs/shell hdfs dfs -ls /hdfs/shell将通讯数据上传到HDFS并查看
hdfs dfs -put /home/hadoop/data/mobile.txt /hdfs/shell hdfs dfs -text /hdfs/shell/mobile.txt下载文件到本地
hdfs dfs -get /hdfs/shell/mobile.txt /home/hadoop统计目录下文件大小
hdfs dfs -du /hdfs/shell删除移动数据文件和目录
hdfs dfs -rm /hdfs/shell/mobile.txt hdfs dfs -rmr /hdfs---rmr递归删除目录下所有子目录和文件,生产环境中慎用HDFS角色 Client:客户端 NameNode (NN):元数据节点NNSNN 管理文件系统的Namespace/元数据 一个HDFS集群只有一个Active的NN DataNode (DN):数据节点 数据存储节点,保存和检索BlockClientDN 一个集群可以有多个数据节点 Secondary NameNode (SNN):从元数据节点 合并NameNode的edit logs到fsimage文件中 辅助NN将内存中元数据信息持久化 HDFS副本机制 Block:数据块 HDFS最基本的存储单元 默认块大小:128M(2.x) 副本机制 作用:避免数据丢失 副本数默认为3 存放机制: 一个在本地机架节点 一个在同一个机架不同节点 一个在不同机架的节点
hdfs读文件: 写文件:
使用Java实现HDFS文件读写等操作