Live2D

随笔分类 -  大数据

摘要:mapreduce 全局变量共享 在编写MapReduce程序时,经常会遇到这样的问题,全局变量如何保存?如何让每个处理都能获取保存的这些全局变量?使用全局变量是不可避免的,但是 在MapRdeuce中直接使用代码级别的全局变量是不现实的。主要是因为继承Mapper基类的Map阶段类的运行和继承Re 阅读全文
posted @ 2019-05-20 22:45 -涂涂- 阅读(763) 评论(0) 推荐(0) 编辑
摘要:一、mapreduce多job串联 1、需求 一个稍复杂点的处理逻辑往往需要多个 mapreduce 程序串联处理,多 job 的串联可以借助 mapreduce 框架的 JobControl 实现 2、实例 以下有两个 MapReduce 任务,分别是 Flow 的 SumMR 和 SortMR, 阅读全文
posted @ 2019-05-20 21:54 -涂涂- 阅读(208) 评论(0) 推荐(0) 编辑
摘要:m apreduce三大组件:Combiner\Sort\Partitioner 默认组件:排序,分区(不设置,系统有默认值) 一、mapreduce中的Combiner 1、什么是combiner Combiner 是 MapReduce 程序中 Mapper 和 Reducer 之外的一种组件, 阅读全文
posted @ 2019-05-20 21:51 -涂涂- 阅读(225) 评论(0) 推荐(0) 编辑
摘要:MapReduce 程序的业务编码分为两个大部分,一部分配置程序的运行信息,一部分 编写该 MapReduce 程序的业务逻辑,并且业务逻辑的 map 阶段和 reduce 阶段的代码分别继 承 Mapper 类和 Reducer 类 1、mapreduce单词统计实例 reduce 二、mapre 阅读全文
posted @ 2019-05-20 21:45 -涂涂- 阅读(557) 评论(0) 推荐(0) 编辑
摘要:1、实时处理框架 即从上面的架构中我们可以看出,其由下面的几部分构成: Flume集群 Kafka集群 Storm集群 从构建实时处理系统的角度出发,我们需要做的是,如何让数据在各个不同的集群系统之间打通(从上面的图示中也能很好地说明这一点),即需要做各个系统之前的整合,包括Flume与Kafka的 阅读全文
posted @ 2019-05-20 20:47 -涂涂- 阅读(1435) 评论(0) 推荐(0) 编辑
摘要:数据分析一般分为两种,一种是在线一种是离线 流程: 一般都是对于日志文件的采集和分析 场景实例(某个电商网站产生的用户访问日志(access.log)进行离线处理与分析的过程) 1、需求: 基于MapReduce的处理方式,最后会统计出某一天不同省份访问该网站的uv与pv(pv就是点击量,uv是独立 阅读全文
posted @ 2019-05-20 19:46 -涂涂- 阅读(975) 评论(0) 推荐(0) 编辑
摘要:安装搭建: 1)解压下载的flume(安装jdk1.6及其以上) 2)在conf文件夹里面建立example.conf文件 3)启动flume 4)新建窗口运行 5)在该窗口输入,另一个窗口会输出记录 flume对接不同的数据源 1、Avro Source 监听AVRO端口来接受来自外部AVRO客户 阅读全文
posted @ 2019-05-20 16:27 -涂涂- 阅读(890) 评论(0) 推荐(0) 编辑
摘要:一、python操作 二、命令行 参考: https://www.cnblogs.com/aademeng/articles/9779271.html https://baijiahao.baidu.com/s?id=1612042780837847633&wfr=spider&for=pc 阅读全文
posted @ 2019-05-18 19:37 -涂涂- 阅读(568) 评论(0) 推荐(0) 编辑
摘要:报错: 原因:由于直接关闭客户端,进程没关导致下次开启时,后台还是运行的所以无法重新开启 解决办法: 1、查看进程 2、然后杀死他!!!! 一般杀死第一个就可以了。 参考:https://blog.csdn.net/wangyue12138/article/details/82661624 阅读全文
posted @ 2019-05-17 22:11 -涂涂- 阅读(954) 评论(0) 推荐(0) 编辑
摘要:引入依赖 生产者 消费者 如果连接kafka超时: 修改kafka的config/server.properties文件中的如下内容: advertised.listeners=PLAINTEXT://IP地址:9092 使用ifconfig或者ip a指令获取安装机器的ip地址,加入获取到的测试机 阅读全文
posted @ 2019-05-15 16:33 -涂涂- 阅读(1619) 评论(0) 推荐(0) 编辑
摘要:安装实战 kafka安装包下载(注意:这里选择的安装包是2.11系列的1.1.0版本的) wget https://archive.apache.org/dist/kafka/1.1.0/kafka_2.11-1.1.0.tgz 安装启动服务 首先,我们需要下载并且安装zk和kafka,并且将这两个 阅读全文
posted @ 2019-05-15 16:31 -涂涂- 阅读(270) 评论(0) 推荐(0) 编辑
摘要:1、zookeeper安装: (https://zookeeper.apache.org/releases.html) ①进入zookeeper的相关设置所在的文件目录,例如本文的:D:\bigdata\zookeeper-3.4.10\conf ②将"zoo_sample.cfg"重命名为"zoo 阅读全文
posted @ 2019-05-15 16:26 -涂涂- 阅读(624) 评论(0) 推荐(0) 编辑
摘要:报错信息:com.alibaba.druid.pool.DruidDataSource - testWhileIdle is true, validationQuery not set 解决方法: 找到conf/canal.properties 文件里面的 canal.instance.tsdb.s 阅读全文
posted @ 2019-05-10 11:21 -涂涂- 阅读(169) 评论(0) 推荐(0) 编辑
摘要:用java操作hbase 利用maven引入hbase包后发现无法启动程序,然后网上说是包的冲突。 我引入了下面三个包然后程序就不能运行了。 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-it</artifact 阅读全文
posted @ 2019-05-08 19:33 -涂涂- 阅读(2379) 评论(0) 推荐(0) 编辑
摘要:我用的是Hadoop-common 2.6.4jar,可是明明包里面有这个类却引用不了,然后我看了下包里面是一个抽象类。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 所以就换了一个2.7.0然后就可以引用了。 阅读全文
posted @ 2019-05-08 18:18 -涂涂- 阅读(18785) 评论(0) 推荐(0) 编辑
摘要:mapreduce关键点: 1、 当一个reduce worker读取了所有的中间数据后,它通过中间key值对缓冲数据排序,以便相同key值的出现组织在一起。由于通常许多不同的key值映射到同一reduce任务上,因此排序是需要的。如果中间数据量太大而无法适应内存,那么就使用外部排序。reduce的 阅读全文
posted @ 2019-03-03 15:10 -涂涂- 阅读(111) 评论(0) 推荐(0) 编辑
摘要:进入hbase 部分命令清单 查询服务器状态 status 查询hbase版本 version 1. 创建一个表 2. 列出所有的表 3. 获得表的描述 4. 删除一个列族 disable alter enable 5. 查看表是否存在 6. 判断表是否为‘enable’ 判断表是否为‘disabl 阅读全文
posted @ 2019-03-02 21:07 -涂涂- 阅读(199) 评论(0) 推荐(0) 编辑
摘要:hdfs基本操作 1、查询命令 hadoop dfs -ls / 查询/目录下的所有文件和文件夹 hadoop dfs -ls -R 以递归的方式查询/目录下的所有文件 2、创建文件夹 hadoop dfs -mkdir /test 创建test文件夹 3、创建新的空文件 hadoop dfs -t 阅读全文
posted @ 2019-03-02 19:59 -涂涂- 阅读(303) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示