摘要: spark的相关问题: 一、 spark中的RDD是什么, 有哪些特性 RDD(Resilient Distributed Dataset)叫做分布式数据集, 是Spark中最基本的数据抽象, 它代表一个不可变,可分区,里面元素可并行计算的集合。 Dataset: 就是一个集合, 用于存放数据的。 阅读全文
posted @ 2018-12-10 13:34 零下-八度 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 动态上下线集群的具体操作 阅读全文
posted @ 2018-12-10 12:08 零下-八度 阅读(866) 评论(0) 推荐(0) 编辑
摘要: 一、kafka消息保证生产的信息不丢失金和重复消费问题 1. 使用同步模式的时候,有3中状态保证消息被安全生产, 在配置为1(只保证写入leader成功)的话,如果刚好leader partition挂了,数据就是丢失。 2. 还有一种情况可能会丢失小时, 就是使用异步模式的时候,当缓冲区满了,如果 阅读全文
posted @ 2018-12-10 11:45 零下-八度 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 1. 关于join中出现数倾斜的操作 2. 关于maojoin的操作 3. 对于bucket join的操作 4. 关于where和join的操作 5. 关于group by的操作 阅读全文
posted @ 2018-12-10 02:00 零下-八度 阅读(684) 评论(0) 推荐(0) 编辑
摘要: 1. 数据仓库分层 阅读全文
posted @ 2018-12-10 01:03 零下-八度 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 1. HBase为什么查询快 2. HRegionServer中数据写流程 3. HBase rowkey设计原则 阅读全文
posted @ 2018-12-10 00:43 零下-八度 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 1. Hive是怎样保存元数据的。 2. Hive内部表和外部表。 3. Hive的sort by 和 order by区别。 4. Hbase和Hive 的区别。 阅读全文
posted @ 2018-12-10 00:16 零下-八度 阅读(172) 评论(0) 推荐(0) 编辑