大数据面试题

大数据面试题

纯技术部分

java相关面试题

  1. java面向对象的特征【基础】
  2. java的final, finally, finalize 的区别【基础】
  3. java中重载和重写的区别【基础】
  4. java中Arraylist 与 LinkedList 区别【基础】
  5. java中接口和抽象类的区别【基础】
  6. java中sleep() 和wait() 有什么区别?【基础】
  7. java线程的创建方式
  8. java线程的生命周期
  9. CAS是悲观锁还是乐观锁
  10. 谈谈jvm的理解
  11. 说说 CountDownLatch 与 CyclicBarrier 区别【难】

scala相关面试题

  1. 谈谈scala的伴生对象【基础】
  2. scala隐式转换的关键字【基础】
  3. scala的特质和抽象类有什么区别【基础】
  4. scala的闭包和柯里化

数据库相关面试题【重要】

  1. 数据库的隔离级别【基础】
  2. left join、right join和join的区别【基础】
  3. 数据库中那些会引起全表扫描的sql语法或者说索引失效【基础】
  4. mysql的存储引擎
  5. 聚集索引与非聚集索引的区别【难】

数仓相关面试题

  1. 谈谈对数仓的认识【基础】
  2. 数仓中常见的表的种类【基础】
  3. 拉链表实现方式
  4. 常用的数仓建模模型
  5. 谈谈数仓和数据库的不同

数据迁移 spark

Linux相关面试题

  1. Linux常用命令【基础】
  2. 查看一个端口被占用的命令【基础】
  3. 杀死一个进程用什么命令【基础】

hive相关面试题【重要】

  1. hive的运行原理【基础】
  2. hiveSql常见优化【必问】
  3. hive的udf函数【基础】
  4. hive的窗口函数有没有用过【基础】
  5. hive的rownumber函数用过吗【基础】
  6. hive的外部表和内部表的区别【基础】
  7. hive的任务数据倾斜怎么办【必问】
  8. 之前的hive版本是多少
  9. hive使用parquet压缩有什么好处
  10. hive是否支持update?
  11. hive的分区和分桶是否了解
  12. hive的sort by 和order by的区别【难】
  13. YRAN的三种调度策略【基础】

kafaka相关面试题

  1. 为什么要使用 kafka? kafka的优点是什么?【基础】
  2. Kafka 是如何做到消息的有序性?【基础】
  3. kafka数据怎么保证不丢失
  4. 讲一讲kafka的ack的三种机制
  5. Kafka消息队列堆积问题【难】
  6. kafka producer如何优化写入速度?【难】

spark相关面试题

  1. spark的常见算子【基础】
  2. spark的广播变量和累加器是用在什么场景【基础】
  3. spark划分stage的依据【基础】
  4. spark的 foreach和foreachPartition的区别【基础】
  5. sparkjob提交后任务执行流程【必问】
  6. 读过spark的哪些源码【必问】
  7. spark的容错机制
  8. spark比hive运行快的原因
  9. SparkStreaming连接Kafka的两种方式、对比一下
  10. Spark的shuffle有几种方式,默认的是什么
  11. Spark调优
  12. spark任务提交方式?driver和cluster client的区别
  13. spark任务失败了怎么办?
  14. spark的RDD 中 reducebyKey 与 groupByKey 区别【难】

Hbase相关面试题

  1. hbase的读写流程【基础】
  2. 谈谈对hbase的理解
  3. 如何提高hbase的写入能力【难】

其他面试题

  1. 常见的数据结构有哪些?
  2. 大数据技术栈还用过哪些?
  3. docker有没有使用过?
  4. cdh是否用过?impala?Doris?
  5. flink有没有用过?
  6. Elastic Search用过没?
  7. Git和Svn用过没?
  8. springboot用过没?springcloud是否用过?
  9. streamsets是否用过?
posted @ 2023-04-03 11:13  edclol  阅读(34)  评论(0编辑  收藏  举报