大数据面试·Hadoop篇(五)
2.1 Hive
2.1.1 Hive压缩类型推荐
2.1.2 Hive分区表和分桶表
2.1.3 order by、sort by、distribute by、partition by
2.1.3.1 order by
2.1.3.2 sort by
2.1.3.3 distribute by
2.1.3.3.1 使用场景
2.1.3.4 partition by
2.1.4 Hive常用函数
2.1 Hive
2.1.1 Hive压缩类型推荐
压缩比、压缩速度、压缩后的文件是否支持HDFS Block的分片
注重压缩速度,优先使用Snappy、LZO
注重压缩比,优先使用BZIP、GZIP
支持压缩后可分、