大数据面试题
目录
大数据面试题
纯技术部分
java相关面试题
- java面向对象的特征【基础】
- java的final, finally, finalize 的区别【基础】
- java中重载和重写的区别【基础】
- java中Arraylist 与 LinkedList 区别【基础】
- java中接口和抽象类的区别【基础】
- java中sleep() 和wait() 有什么区别?【基础】
- java线程的创建方式
- java线程的生命周期
- CAS是悲观锁还是乐观锁
- 谈谈jvm的理解
- 说说 CountDownLatch 与 CyclicBarrier 区别【难】
scala相关面试题
- 谈谈scala的伴生对象【基础】
- scala隐式转换的关键字【基础】
- scala的特质和抽象类有什么区别【基础】
- scala的闭包和柯里化
数据库相关面试题【重要】
- 数据库的隔离级别【基础】
- left join、right join和join的区别【基础】
- 数据库中那些会引起全表扫描的sql语法或者说索引失效【基础】
- mysql的存储引擎
- 聚集索引与非聚集索引的区别【难】
数仓相关面试题
- 谈谈对数仓的认识【基础】
- 数仓中常见的表的种类【基础】
- 拉链表实现方式
- 常用的数仓建模模型
- 谈谈数仓和数据库的不同
数据迁移 spark
Linux相关面试题
- Linux常用命令【基础】
- 查看一个端口被占用的命令【基础】
- 杀死一个进程用什么命令【基础】
hive相关面试题【重要】
- hive的运行原理【基础】
- hiveSql常见优化【必问】
- hive的udf函数【基础】
- hive的窗口函数有没有用过【基础】
- hive的rownumber函数用过吗【基础】
- hive的外部表和内部表的区别【基础】
- hive的任务数据倾斜怎么办【必问】
- 之前的hive版本是多少
- hive使用parquet压缩有什么好处
- hive是否支持update?
- hive的分区和分桶是否了解
- hive的sort by 和order by的区别【难】
- YRAN的三种调度策略【基础】
kafaka相关面试题
- 为什么要使用 kafka? kafka的优点是什么?【基础】
- Kafka 是如何做到消息的有序性?【基础】
- kafka数据怎么保证不丢失
- 讲一讲kafka的ack的三种机制
- Kafka消息队列堆积问题【难】
- kafka producer如何优化写入速度?【难】
spark相关面试题
- spark的常见算子【基础】
- spark的广播变量和累加器是用在什么场景【基础】
- spark划分stage的依据【基础】
- spark的 foreach和foreachPartition的区别【基础】
- sparkjob提交后任务执行流程【必问】
- 读过spark的哪些源码【必问】
- spark的容错机制
- spark比hive运行快的原因
- SparkStreaming连接Kafka的两种方式、对比一下
- Spark的shuffle有几种方式,默认的是什么
- Spark调优
- spark任务提交方式?driver和cluster client的区别
- spark任务失败了怎么办?
- spark的RDD 中 reducebyKey 与 groupByKey 区别【难】
Hbase相关面试题
- hbase的读写流程【基础】
- 谈谈对hbase的理解
- 如何提高hbase的写入能力【难】
其他面试题
- 常见的数据结构有哪些?
- 大数据技术栈还用过哪些?
- docker有没有使用过?
- cdh是否用过?impala?Doris?
- flink有没有用过?
- Elastic Search用过没?
- Git和Svn用过没?
- springboot用过没?springcloud是否用过?
- streamsets是否用过?