大数据-hdfs的简单概述

技术2022-07-10 375

大数据特征 4V特征： Volume(大数据量)：90% 的数据是过去两年产生 Velocity(速度快)：数据增长速度快，时效性高 Variety(多样化)：数据种类和来源多样化结构化数据、半结构化数据、非结构化数据 Value(价值密度低)：需挖掘获取数据价值固有特征时效性不可变性

HDFS特点 HDFS优点：支持处理超大文件可运行在廉价机器上高容错性流式文件写入 HDFS缺点：不适合低延时数据访问场景不适合小文件存取场景不适合并发写入，文件随机修改场景

简单的一些l命令

创建存放数据文件的目录：

hdfs dfs -mkdir /hdfs/shell hdfs dfs -ls /hdfs/shell

将通讯数据上传到HDFS并查看

hdfs dfs -put /home/hadoop/data/mobile.txt /hdfs/shell hdfs dfs -text /hdfs/shell/mobile.txt

下载文件到本地

hdfs dfs -get /hdfs/shell/mobile.txt /home/hadoop

统计目录下文件大小

hdfs dfs -du /hdfs/shell

删除移动数据文件和目录

hdfs dfs -rm /hdfs/shell/mobile.txt hdfs dfs -rmr /hdfs---rmr递归删除目录下所有子目录和文件，生产环境中慎用

HDFS角色 Client：客户端 NameNode (NN)：元数据节点NNSNN 管理文件系统的Namespace/元数据一个HDFS集群只有一个Active的NN DataNode (DN)：数据节点数据存储节点，保存和检索BlockClientDN 一个集群可以有多个数据节点 Secondary NameNode (SNN)：从元数据节点合并NameNode的edit logs到fsimage文件中辅助NN将内存中元数据信息持久化 HDFS副本机制 Block：数据块 HDFS最基本的存储单元默认块大小：128M（2.x）副本机制作用：避免数据丢失副本数默认为3 存放机制：一个在本地机架节点一个在同一个机架不同节点一个在不同机架的节点

hdfs读文件：写文件：

使用Java实现HDFS文件读写等操作

Processed: 0.013, SQL: 9