04 2016 档案
摘要:由于项目需要从HBase里读取数据,进行MapReduce之后输出到HDFS中。 为了测试方便,我这里写了一个批量插入HBase数据的测试代码。采用的Maven工程。 打算,今后的所有用到的小测试例子都放到这个工程里面了。 代码放到GitHub上面了:https://github.com/quchu
阅读全文
摘要:前提: 搭建好集群环境(zookeeper、hadoop、hbase)。 搭建方法这里就不进行介绍了,网上有很多博客在介绍这些。 简单需求: WordCount单词计数,号称Hadoop的HelloWorld。所以,我打算通过这个来初体验一下Hadoop。需求如下: ①、计算文件中出现每个单词的频数
阅读全文
摘要:公司给分配了3台新的虚拟机,打算从头配置一下zookeeper,kafka,storm,hadoop,hbase的环境。 (以后配置mongodb,spark的时候,在陆续更新,目前(2016/4/21)只接触这么多) 配置的过程中发生了一些问题。这里共享一下笔记。当然,我做配置的时候的原则是: 只
阅读全文
摘要:开始的时候同事只给了一个地址,类似这样:git@111.111.1.1:ABCDEF (1)如何在Windows上使用Git 有一篇博客不错:http://www.tuicool.com/articles/qEVnUr ①、下载msysgit:http://msysgit.github.io/ ②、
阅读全文
摘要:为了解决这个问题,已经有砸电脑的冲动了。通过百度查找都说是Maven依赖的原因,经过各种尝试仍然没有解决,后来终于在QQ群的帮助下,算是暂时过关。 【问题】 程序在本地运行没有问题,打成jar包发布到storm上的时候,总是会出现jar包冲突的错误。到时Topology发布失败。 通过Maven的m
阅读全文
摘要:官网:http://hbase.apache.org/book.html 搜索:Hadoop version support matrix 下面有一个二维的支持关系表。
阅读全文
摘要:摘录自博客:http://dataunion.org/9307.html?utm_source=tuicool&utm_medium=referral 为什么要用Message Queue 解耦在项目启动之初来预测将来项目会碰到什么需求,是极其困难的。消息队列在处理过程中间插入了一个隐含的、基于数据
阅读全文
摘要:从16年4月5号开始学习kafka,后来由于项目需要又涉及到了storm。 经过几天的扫盲,到今天16年4月13日,磕磕碰碰的总算是写了一个kafka+storm的HelloWorld的例子。 为了达到前人栽树后人乘凉的知识共享的目的,我尝试着梳理一下过程。 实例需求 由kafka消息队列源源不断生
阅读全文
摘要:(1)下载jar包 去网上搜索KafkaOffsetMonitor即可。 我这里共享了我的百度云连接:http://yun.baidu.com/s/1nvGjbDn 如果某一天我这个取消共享了,大家去网上随便查找一个就可以。也可以在博客上给我留言,我来继续分享。 (2)将jar包上传到Linux上
阅读全文
摘要:刚开始使用Linux,自己构建了一个Linux虚拟机之后,在使用yum install的时候,经常是出错,提示连接不上。 一直以为是自己构建的虚拟机的问题,后来在网上查找了一些资料,才发现:需要配置本地yum源。 下面是网上的重复不断的博客,我这里也为了备忘将内容引用一下。 虚拟机中的linux有时
阅读全文
摘要:推荐慕课网视频:http://www.imooc.com/video/10055 另外,关于Storm并发度,已经整理到另一篇博客中,希望对读者有所帮助。 请参考:http://www.cnblogs.com/quchunhui/p/8271349.html Storm的起源。 Storm是开源的、
阅读全文
摘要:【时间】: 2016/4/8 17:30 【问题】: kafka执行Consumer实例的时候,发生了一下错误。 kafka配置文件server.properties如下: zookeeper配置文件zoo.cfg内容如下: consumer的实现代码如下: 其中静态类的定义如下: 共通方法的实现如
阅读全文
摘要:Kafka消费者模型 参考博客:http://www.tuicool.com/articles/fI7J3m --分区消费模型 分区消费架构图 图中kafka集群有两台服务器(Server),每台服务器有2个分区(Patition),共4个分区。 由四个消费者实例(Consumer)来消费4个分区。
阅读全文
摘要:慕课网视频教程:http://www.imooc.com/learn/443 Maven是什么 Maven是基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。简单的来说,Maven可以帮我们来管理项目。 下载Maven 官网:http://maven.
阅读全文
摘要:用简单的话来说,你可以把Kafka当作可顺序写入的一大卷磁带, 可以随时倒带,快进到某个时间点重放。 常用开源分布式消息系统 *集群:多台机器组成的系统叫集群。 *ActiveMQ还是支持JMS的一种消息中间件。 *阿里巴巴metaq,rocketmq都有kafka的影子。 *kafka的动态扩容目
阅读全文
摘要:转自:http://blog.csdn.net/lizhitao/article/details/25667831 参数 说明(解释) broker.id =0 每一个broker在集群中的唯一表示,要求是正数。当该服务器的IP地址发生改变时,broker.id没有变化,则不会影响consumers
阅读全文