摘要:
kudu的介绍: KUDU在 HDFS 和 HBase 这两个中平衡了随机读写和批量分析的性能,既支持了SQL实时查询,也支持了数据更新插入操作kudu 术语: Tablet(段):一个tablet是一张table连续的segment,与其它数据存储引擎或关系型数据库partition(分区)相似。在一定的时间范围内,tablet的副本冗余到多个tserver服务器上,其中一个副本被认... 阅读全文
摘要:
kafaka 常用组件: 1,producer:消息的生产者, 自己决定哪个 partions 中生产消息, 两种机制:hash 与 轮询 2,consumer:通过 zookeeper 进行维护消费者偏移量, consumer有自己的消费组,不同组之间维护同一个 topic 数据,互不影响.相同组的不同 consumer消费同一个 topic,这个 topic相同的数据只被消费一次 ... 阅读全文
摘要:
/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this 阅读全文
摘要:
override def receiveAndReply(context: RpcCallContext): PartialFunction[Any, Unit] = { case RequestSubmitDriver(description) => if (state != RecoverySt 阅读全文
摘要:
hive 分桶与便签: 1,分桶表是对列值进行 hash 的方式,将不同的数据放到不同的文件之中存储 2,对 hive中每一个表,分区都可以进行分桶 3,由列的hash值除以桶的个数来决定每条数据划分到哪个桶之中 4,适用于数据抽样,与 map-join开启分桶机制 # 可以通过 mapred.reduce.tasks 设置 reduce 个数,不推荐 # 一次作业产生的... 阅读全文