【面试题】大数据开发岗位

某公司面试题：
1、阐述数据库的三大范式？

2、Linux 自带的常用命令举例至少20个？

3、Spark 有哪些聚合类的算子，我们应该尽量避免什么类型的算子？

4、Hive 和 HBase 的区别？

5、你了解设计模式吗？写出你知道的设计模式。

6、常见的GC算法有哪些？

7、kafka 的数据存在内存还是磁盘？

8、什么是shuffle？写出你知道的Spark Shuffle 相关参数配置。

9、有一个10G的文件要存入HDFS，描述一下存储过程。HDFS默认块大小128MB.

10、Kafka 选举策略。

11、Hive 内部表和外部表的区别？应该如何选择使用哪种表呢？

12、内存泄露和内存溢出有什么区别？

13、用Java代码写一个你所知道的排序算法。

14、写出wordcount并排序，linux、java（非mr）、hive、spark、Flink，以以上五种语言中任选两种进行书写。

15、Flink 计算单位是什么？

16、Flink 窗口类型有哪些？你都用过哪些窗口？

17、假设现在有一张Hive 表，如下所示：
元数据格式为：
字段：

col1    string
col2    string

表中有两个字段，字段类型都为String，现在需要将数据拆分专为多列。
数据格式如下：

col1	col2
a,b,c,d	2:00,3:00,4:00,5:00
f,b,c,d	1:10,2:20,3:30,4:40

19、假设现有一张Hive表，如下所示：
col1 是有序的，按照col2 分块计数，每当col2发生变化，就重新开始计数，计数的结果当做col3返回。
数据格式如下：

参考答案：

posted @ 2020-08-28 12:54 水木青楓阅读(670) 评论(0) 收藏举报

刷新页面返回顶部

行勝於言