大数据面试题

大数据面试题
- 纯技术部分
- 其他面试题

大数据面试题

纯技术部分

java相关面试题

java面向对象的特征【基础】
java的final, finally, finalize 的区别【基础】
java中重载和重写的区别【基础】
java中Arraylist 与 LinkedList 区别【基础】
java中接口和抽象类的区别【基础】
java中sleep() 和wait() 有什么区别?【基础】
java线程的创建方式
java线程的生命周期
CAS是悲观锁还是乐观锁
谈谈jvm的理解
说说 CountDownLatch 与 CyclicBarrier 区别【难】

scala相关面试题

谈谈scala的伴生对象【基础】
scala隐式转换的关键字【基础】
scala的特质和抽象类有什么区别【基础】
scala的闭包和柯里化

数据库相关面试题【重要】

数据库的隔离级别【基础】
left join、right join和join的区别【基础】
数据库中那些会引起全表扫描的sql语法或者说索引失效【基础】
mysql的存储引擎
聚集索引与非聚集索引的区别【难】

数仓相关面试题

谈谈对数仓的认识【基础】
数仓中常见的表的种类【基础】
拉链表实现方式
常用的数仓建模模型
谈谈数仓和数据库的不同

数据迁移 spark

Linux相关面试题

Linux常用命令【基础】
查看一个端口被占用的命令【基础】
杀死一个进程用什么命令【基础】

hive相关面试题【重要】

hive的运行原理【基础】
hiveSql常见优化【必问】
hive的udf函数【基础】
hive的窗口函数有没有用过【基础】
hive的rownumber函数用过吗【基础】
hive的外部表和内部表的区别【基础】
hive的任务数据倾斜怎么办【必问】
之前的hive版本是多少
hive使用parquet压缩有什么好处
hive是否支持update？
hive的分区和分桶是否了解
hive的sort by 和order by的区别【难】
YRAN的三种调度策略【基础】

kafaka相关面试题

为什么要使用 kafka? kafka的优点是什么?【基础】
Kafka 是如何做到消息的有序性？【基础】
kafka数据怎么保证不丢失
讲一讲kafka的ack的三种机制
Kafka消息队列堆积问题【难】
kafka producer如何优化写入速度？【难】

spark相关面试题

spark的常见算子【基础】
spark的广播变量和累加器是用在什么场景【基础】
spark划分stage的依据【基础】
spark的 foreach和foreachPartition的区别【基础】
sparkjob提交后任务执行流程【必问】
读过spark的哪些源码【必问】
spark的容错机制
spark比hive运行快的原因
SparkStreaming连接Kafka的两种方式、对比一下
Spark的shuffle有几种方式，默认的是什么
Spark调优
spark任务提交方式？driver和cluster client的区别
spark任务失败了怎么办？
spark的RDD 中 reducebyKey 与 groupByKey 区别【难】

Hbase相关面试题

hbase的读写流程【基础】
谈谈对hbase的理解
如何提高hbase的写入能力【难】

其他面试题

常见的数据结构有哪些？
大数据技术栈还用过哪些？
docker有没有使用过？
cdh是否用过？impala？Doris？
flink有没有用过？
Elastic Search用过没？
Git和Svn用过没？
springboot用过没？springcloud是否用过？
streamsets是否用过？

posted @ 2023-04-03 11:13 edclol 阅读(81) 评论(0) 收藏举报

刷新页面返回顶部