上一页 1 2 3 4 5 6 ··· 13 下一页

2017年6月3日

hive查询不加分区的一个异常

摘要: 今天下午有同事反馈她提交了了一个SQL后,hive 查询就停止响应了。 我看了下,发现hiveserver确实hug住了。听过查看日志,发现了一个牛逼的SQL, 这个SQL很简单: 这两张表都是很大的表,保存了好多年的数据,表b按照日期和类目进行了分区。 因为没有加限制,所以HiveMetaStor 阅读全文

posted @ 2017-06-03 21:25 walkwalkwalk 阅读(2139) 评论(0) 推荐(0) 编辑

2017年5月27日

Storm Zookeeper

摘要: 本文记录了storm 1.1.0 在zookeeper中保存的信息。 下面的图是在[4]的基础上进行修改的。 "1] [HOW TO TUNE APACHE STORM’S AUTOMATIC BACK PRESSURE" "2] [Storm Distributed Cache API" "3] 阅读全文

posted @ 2017-05-27 16:42 walkwalkwalk 阅读(654) 评论(0) 推荐(0) 编辑

2017年4月26日

RecordAccumulator 1

摘要: 介绍 前面讲过producer会将数据保存在RecordAccumulator中,并通过Sender发送数据。RecordAccumulator 就相当于一个队列保存着那些准备发送到server的数据。 在producer中,有几个参数和RecordAccumulator 有关系: 1. buffe 阅读全文

posted @ 2017-04-26 17:07 walkwalkwalk 阅读(879) 评论(0) 推荐(0) 编辑

2017年4月24日

KafkaProducer的整体逻辑

摘要: 概述 KafkaProducer是用户向kafka servers发送消息的客户端。官网上对producer的记载如下: 1. Kafka所有的节点都可以应答metadata的请求,这些metadata中包含了分区所对应的leader信息,而这些leader允许生产者直接将数据发送到分区leader 阅读全文

posted @ 2017-04-24 13:46 walkwalkwalk 阅读(1100) 评论(0) 推荐(0) 编辑

2017年3月6日

KAFKA 调优

摘要: KAFKA 调优 最近要对kafka集群做调优,就在网上看了些资料,总结如下。 我们的kafka版本是0.10.1.0。 机器配置是40G内存,300G硬盘。 一共有3台机器组成一个小的集群。 Kakfka的调优主要分为3个部分,Linux系统,JVM虚拟机,Kafka本身设置。 Linux系统 S 阅读全文

posted @ 2017-03-06 19:35 walkwalkwalk 阅读(13681) 评论(1) 推荐(0) 编辑

2017年3月4日

FLUME CHANNEL

摘要: FLUME CHANNEL Flume Channel 和 Source 的结构有一定的相似性。 Channel 和 AbstractChannel 都 定义好了channel的结构。 不过Channel 需要一个事务(Transaction)来保证数据的一致性,而且这个事务必须是线程安全的,并且高 阅读全文

posted @ 2017-03-04 16:09 walkwalkwalk 阅读(1480) 评论(0) 推荐(0) 编辑

2017年3月1日

FLUME SOURCE

摘要: FLUME SOURCE 记得在AbstractConfigurationProvider中的getConfiguration方法中会执行 方法。这个方法会中会有个SourceFactory去创建不同类型的SourceRunnner。 这就是Source 的入口。 整个source的代码分在好几处: 阅读全文

posted @ 2017-03-01 17:21 walkwalkwalk 阅读(532) 评论(0) 推荐(0) 编辑

2017年2月26日

FLUME KAFKA SOURCE 和 SINK 使用同一个 TOPIC

摘要: FLUME KAFKA SOURCE 和 SINK 使用同一个 TOPIC 最近做了一个事情,过滤下kakfa中的数据后,做这个就用到了 ,直接使用 和 ,中间再加一个过滤的 就可以了。 要做的事情很简单,但是遇到了一个问题,就是 中指定的 不起作用。 过程是这样的: 方法会给 的`header t 阅读全文

posted @ 2017-02-26 20:51 walkwalkwalk 阅读(1404) 评论(0) 推荐(0) 编辑

2017年2月8日

Flume 启动

摘要: Configuration是Flume项目的入口程序了,当我们输入 后,脚本会导入环境变量,并且启动 。 然后调用 类的main方法,这个方法里面加载了配置,并且启动了每个组件。 在这个里面使用了 和 两个类,实际作用是提供每个组件的配置。 他们的类图如下: 是一个接口,所有 都是为了各种组件提供配 阅读全文

posted @ 2017-02-08 23:14 walkwalkwalk 阅读(3542) 评论(0) 推荐(1) 编辑

2017年1月23日

FLUME介绍

摘要: 前段时间使用了flume 1.7,感觉flume写的挺好的,打算学习下源代码。 当前的版本为1.7.0。 简介 Flume是一个分布式的开源数据收集系统,使用起来简单方便,性能也不错。 官网:https://flume.apache.org/ 逻辑结构 "Source" 负责数据的收集,flume有 阅读全文

posted @ 2017-01-23 17:22 walkwalkwalk 阅读(531) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 13 下一页

导航