面试疑难问题

  1. 为什么不直接把CSV文件上传到hdfs而要用flume采集  
    1.   动态分区  提取其中的时间戳
    2. 断点续传  实时监听不用手动续传
    3. 要有拦截器 配置
    4. 事务传输时
    5. 更多控制能力 积攒到多少批flushing一次
    6. 忽略哪种类型的不上传  文件太多了一个个手动上传费时费力且容易出错
  2. 我一直纠结在AV阿罗通信是干什么的,和我的场景搭配不,是做多个项目不同集群的日志收集

     

  3. kafka具体数据量

     

  4. 页目录  索引下推  reward

     

     页组织成双叶链表如果数据量非常大就不是顺序IO,所以有了区1MB

  5. kafka精确一次  扩容broker分区  下游的消费者

     

  6. 进程切换 要交换的信息保存在pcb中

  7. kafka再平衡 粘性策略

     consumer消费者组中也是有leader的,有协调器选出   协调器把要消费的topic情况发给leader,leader制定消费方案 协调器下发消费方案

     

     手动提交 漏消费 异步同步两种方式

  8. flink

     

     物理分区是并行度的改变 打散shuffle 冲缩放 轮训

  9. Linux内核页面分配算法 伙伴算法

     

     

     

     

  10. 对mapjoin和bucket map join SMBjoin的理解出现了问题

     

     

  11. 应对数据倾斜

     第一个是map端聚合   将倾斜的键聚合在一起,一般都能解决

     

     

     

     

     

     

  12. 为什么要用Maxwell收集这些信息

     

  13.  

    Maxwell工作详解

     

     

     

     

  14.  

    datax有模板

     flume也可以配置检查点文件

     

     

     

     

     

  15. 维度建模

     

     

     

  16. 删除 QPS 

     

     

     

     

  17. MapReduce

     

     

     

     

  18.  

    DataNode

     

     

     

posted @   SunShine789  阅读(3)  评论(0编辑  收藏  举报
努力加载评论中...
点击右上角即可分享
微信分享提示