十七楼的羊

2019年8月16日

摘要： kudu的介绍: KUDU在 HDFS 和 HBase 这两个中平衡了随机读写和批量分析的性能，既支持了SQL实时查询，也支持了数据更新插入操作kudu 术语: Tablet（段）:一个tablet是一张table连续的segment，与其它数据存储引擎或关系型数据库partition（分区）相似。在一定的时间范围内，tablet的副本冗余到多个tserver服务器上，其中一个副本被认... 阅读全文

posted @ 2019-08-16 00:46 十七楼的羊阅读(1997) 评论(0) 推荐(0) 编辑

2019年8月14日

kafka 常用组件以及说明

摘要： kafaka 常用组件: 1,producer：消息的生产者, 自己决定哪个 partions 中生产消息, 两种机制:hash 与轮询 2,consumer：通过 zookeeper 进行维护消费者偏移量, consumer有自己的消费组,不同组之间维护同一个 topic 数据,互不影响.相同组的不同 consumer消费同一个 topic,这个 topic相同的数据只被消费一次 ... 阅读全文

posted @ 2019-08-14 00:27 十七楼的羊阅读(2506) 评论(0) 推荐(0) 编辑

2019年7月28日

hadoop 源码解析其二(reduce)

摘要： /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this 阅读全文

posted @ 2019-07-28 00:40 十七楼的羊阅读(302) 评论(0) 推荐(0) 编辑

2019年7月27日

spark 源码解析其一(资源的申请,任务调度)

摘要： override def receiveAndReply(context: RpcCallContext): PartialFunction[Any, Unit] = { case RequestSubmitDriver(description) => if (state != RecoverySt 阅读全文

posted @ 2019-07-27 12:18 十七楼的羊阅读(312) 评论(0) 推荐(0) 编辑

2019年7月23日

hive 便签(分桶与自定义函数):

摘要： hive 分桶与便签: 1,分桶表是对列值进行 hash 的方式,将不同的数据放到不同的文件之中存储 2,对 hive中每一个表,分区都可以进行分桶 3,由列的hash值除以桶的个数来决定每条数据划分到哪个桶之中 4,适用于数据抽样,与 map-join开启分桶机制 # 可以通过 mapred.reduce.tasks 设置 reduce 个数,不推荐 # 一次作业产生的... 阅读全文

posted @ 2019-07-23 23:36 十七楼的羊阅读(458) 评论(0) 推荐(0) 编辑

公告