摘要: 关于MR的工作原理不做过多叙述,本文将对MapReduce的实例WordCount(单词计数程序)做实践,从而理解MapReduce的工作机制。 WordCount: 1.应用场景,在大量文件中存储了单词,单词之间用空格分隔 2.类似场景:搜索引擎中,统计最流行的N个搜索词,统计搜索词频率,帮助优化 阅读全文
posted @ 2017-03-19 12:08 孟凡柱的专栏 阅读(2802) 评论(0) 推荐(0) 编辑
摘要: maven仓库用过的人都知道,国内有多么的悲催。还好有比较好用的镜像可以使用,尽快记录下来。速度提升100倍。 http://maven.aliyun.com/nexus/#view-repositories;public~browsestorage 在maven的settings.xml 文件里配 阅读全文
posted @ 2017-03-19 10:19 孟凡柱的专栏 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 之前介绍过关于HBase 0.9.8版本的部署及使用,本篇介绍下最新版本HBase1.2.4的部署及使用,有部分区别,详见如下: 1. 环境准备: 1.需要在Hadoop[hadoop-2.7.3] 启动正常情况下安装,hadoop安装可参考LZ的文章 大数据系列之Hadoop分布式集群部署 2. 阅读全文
posted @ 2017-03-19 08:58 孟凡柱的专栏 阅读(2554) 评论(0) 推荐(0) 编辑
摘要: 若查看HBase-1.2.4版本内容及demo代码详见 大数据系列之分布式数据库HBase-1.2.4+Zookeeper 安装及增删改查实践 1. 环境准备: 1.需要在Hadoop启动正常情况下安装,hadoop安装可参考LZ的文章 大数据系列之Hadoop分布式集群部署 2. 资料包 hbas 阅读全文
posted @ 2017-03-15 18:57 孟凡柱的专栏 阅读(1137) 评论(0) 推荐(0) 编辑
摘要: 相关文章: 大数据系列之Kafka安装 大数据系列之Flume--几种不同的Sources 大数据系列之Flume+HDFS 关于Flume 的 一些核心概念: 1. kafka.properties: 关于配置文件中注意3点: a. agent.sources.s1.command=tail -F 阅读全文
posted @ 2017-03-14 20:09 孟凡柱的专栏 阅读(46647) 评论(5) 推荐(3) 编辑
摘要: 1.下载kafkaoffsetmonitor的jar包,可以到github搜索kafkaoffsetmonitor,第一个就是,里面可以下载编译好了的包。 KafkaOffsetMonitor-assembly-0.2.1.jar 2.新建在kafka的bin下面新建kafka-monitor文件夹 阅读全文
posted @ 2017-03-14 17:38 孟凡柱的专栏 阅读(1080) 评论(0) 推荐(1) 编辑
摘要: 本文将介绍Flume(Spooling Directory Source) + HDFS,关于Flume 中几种Source详见文章 http://www.cnblogs.com/cnmenglang/p/6544081.html 1.资料准备 : apache-flume-1.7.0-bin.ta 阅读全文
posted @ 2017-03-13 18:19 孟凡柱的专栏 阅读(12142) 评论(0) 推荐(0) 编辑
摘要: 1.flume概念 flume是分布式的,可靠的,高可用的,用于对不同来源的大量的日志数据进行有效收集、聚集和移动,并以集中式的数据存储的系统。 flume目前是apache的一个顶级项目。 flume需要java运行环境,要求java1.6以上,推荐java1.7. 将下载好的flume安装包解压 阅读全文
posted @ 2017-03-13 17:37 孟凡柱的专栏 阅读(8580) 评论(0) 推荐(0) 编辑
摘要: 本节目的:搭建Hadoop分布式集群环境 检测主机名是否修改成功命令如下,在操作之前需要关闭当前终端,重新打开一个终端:即可看到终端命令前是[user@hostname] 添加内容(LZ master Ip是10.211.55.3,Salve Ip 是10.211.55.4) 如图表示修改成功 复制 阅读全文
posted @ 2017-03-10 22:48 孟凡柱的专栏 阅读(2855) 评论(0) 推荐(0) 编辑
摘要: Hadoop框架中,有很多优秀的工具,帮助我们解决工作中的问题。 Hadoop的位置 从上图可以看出,越往右,实时性越高,越往上,涉及到算法等越多。 越往上,越往右就越火…… Hadoop框架中一些简介 HDFS HDFS,(Hadoop Distributed File System) hadoo 阅读全文
posted @ 2017-03-10 13:44 孟凡柱的专栏 阅读(5350) 评论(0) 推荐(1) 编辑