面试阶段记录

技术2024-11-29 79

1.java

2.flume 2.1 flume与kafka的区别

3.sqoop

4.kafka

5.hive 5.1 hive可靠性的保证 HDFS副本放置策略：第一个副本：放置在上传文件的DataNode（节点）中，如果是集群外提交，则随机挑选一台磁盘不太慢，CPU不太忙的节点。第二个副本：放置在于第一个副本不同的机架的节点上（随机选择）在之前的低版本中是会放置在和第一个副本相同的机架中的不同节点中，这样如果副本数为2的话，两个副本会放在同一个机架上，如果整个机架坏了则会造成数据丢失，后期优化为现在的策略放置在不同的机架中，解决了副本数为2的顾虑。第三个副本：与第二个副本相同机架的不同节点中。参考：https://baijiahao.baidu.com/s?id=1661952526035088234&wfr=spider&for=pc

5.2 怎么在udf中实现累加操作这里想问的是分布式累加

5.3 hive数据倾斜的解决办法

5.4 hive支持的数据存储格式 textFile --行式存储 sequenceFile --行式存储 rcFile --列式存储对于查询内容之外的列, 不必执行I/O和解压操作. ORC --列式存储 parquet --列式存储(二进制)

比较：常见的关系型数据库都是行式存储的, 在我们查询的条件需要得到大多数列的时候, 相对列式格式, 查询效率更高。

对于查询内容之外的列, 不必执行I/O和解压操作适合仅访问小部分列的查询. 如果查询的列很多, 则行存储格式更为适合

参考：https://www.jianshu.com/p/f725220bf197

6.spark

Processed: 0.011, SQL: 9