随笔分类 -  Flume

摘要:转自:http://blog.csdn.net/wzy0623/article/details/73650053 一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置 阅读全文
posted @ 2017-06-27 08:38 HarkLee 阅读(15445) 评论(0) 推荐(0) 编辑
摘要:1问题背景Flume向kafka发布数据时,发现kafka接收到的数据总是在一个partition中,而我们希望发布来的数据在所有的partition平均分布2解决办法Flume的官方文档是这么说的:KafkaSinkusesthetopicandkeypropertiesfromtheFlumeE... 阅读全文
posted @ 2015-08-07 14:59 HarkLee 阅读(7777) 评论(0) 推荐(0) 编辑
摘要:flume修改配置文件后,flume进程会自动将配置文件更新至服务中,同时会初始化日志,重新对于metrics进行记录的。 所以拿api做监控的同学要注意这点啦 阅读全文
posted @ 2015-07-02 17:57 HarkLee 阅读(978) 评论(0) 推荐(0) 编辑
摘要:在这里看到的解决方法https://issues.apache.org/jira/browse/SPARK-1729请是个人理解,有问题请大家留言。其实本身flume是不支持像KAFKA一样的发布/订阅功能的,也就是说无法让spark去flume拉取数据,所以老外就想了个取巧的办法。在flume中其... 阅读全文
posted @ 2015-05-13 14:52 HarkLee 阅读(2465) 评论(0) 推荐(0) 编辑
摘要:有两种方式,一种是sparkstreaming中的driver起监听,flume来推数据;另一种是sparkstreaming按照时间策略轮训的向flume拉数据。最开始我以为只有第一种方法,但是尼玛问题在于driver起来的结点是没谱的,所以每次我重启streaming后发现尼玛每次都要修改flu... 阅读全文
posted @ 2015-05-13 10:00 HarkLee 阅读(890) 评论(0) 推荐(0) 编辑
摘要:文章发自http://www.cnblogs.com/hark0623/p/4205756.html 转载请注明flume越用越有一些疑惑,这个月中按计划是要阅读flume源码的,我希望能解决我的疑惑,另外,当疑惑解决后,我也会把过程和结论发到博客中,最终会把链接更新至当前帖子中的,疑惑如下:1、通... 阅读全文
posted @ 2015-01-06 12:16 HarkLee 阅读(543) 评论(0) 推荐(0) 编辑
摘要:2014-12-19 01:05:42,141 (lifecycleSupervisor-1-1) [WARN - org.apache.flume.sink.AbstractRpcSink.start(AbstractRpcSink.java:294)] Unable to create Rpc ... 阅读全文
posted @ 2014-12-20 08:46 HarkLee 阅读(4714) 评论(0) 推荐(0) 编辑
摘要:文章来自:http://www.cnblogs.com/hark0623/p/4174646.html 转发请注明在CDH中用了几天flume后才发现,原来CDH中的flume默认是启动的…………我还自己去启动flume呢。。怪不得监听端口时告诉我端口已被占用了呢。 阅读全文
posted @ 2014-12-19 19:53 HarkLee 阅读(1889) 评论(0) 推荐(0) 编辑
摘要:文章来自:http://www.cnblogs.com/hark0623/p/4173714.html 转发请注明因业务需求,需要flume收集MQTT(Mosquitto)的数据。 方法就是flume自定义source,source中来订阅(subscribe)MQTTflume source的j... 阅读全文
posted @ 2014-12-19 13:32 HarkLee 阅读(1848) 评论(1) 推荐(1) 编辑

点击右上角即可分享
微信分享提示