大数据 - 随笔分类(第2页) - -涂涂-

mapreduce 变量共享

摘要：mapreduce 全局变量共享在编写MapReduce程序时，经常会遇到这样的问题，全局变量如何保存？如何让每个处理都能获取保存的这些全局变量？使用全局变量是不可避免的，但是在MapRdeuce中直接使用代码级别的全局变量是不现实的。主要是因为继承Mapper基类的Map阶段类的运行和继承Re 阅读全文

posted @ 2019-05-20 22:45 -涂涂- 阅读(779) 评论(0) 推荐(0)

mapreduce 函数入门三

摘要：一、mapreduce多job串联 1、需求一个稍复杂点的处理逻辑往往需要多个 mapreduce 程序串联处理，多 job 的串联可以借助 mapreduce 框架的 JobControl 实现 2、实例以下有两个 MapReduce 任务，分别是 Flow 的 SumMR 和 SortMR，阅读全文

posted @ 2019-05-20 21:54 -涂涂- 阅读(216) 评论(0) 推荐(0)

mapreduce 函数入门二

摘要：m apreduce三大组件：Combiner\Sort\Partitioner 默认组件：排序，分区（不设置，系统有默认值）一、mapreduce中的Combiner 1、什么是combiner Combiner 是 MapReduce 程序中 Mapper 和 Reducer 之外的一种组件，阅读全文

posted @ 2019-05-20 21:51 -涂涂- 阅读(234) 评论(0) 推荐(0)

mapreduce 函数入门一

摘要：MapReduce 程序的业务编码分为两个大部分，一部分配置程序的运行信息，一部分编写该 MapReduce 程序的业务逻辑，并且业务逻辑的 map 阶段和 reduce 阶段的代码分别继承 Mapper 类和 Reducer 类 1、mapreduce单词统计实例 reduce 二、mapre 阅读全文

posted @ 2019-05-20 21:45 -涂涂- 阅读(577) 评论(0) 推荐(0)

Flume+Kafka+Storm+Redis 大数据在线实时分析

摘要：1、实时处理框架即从上面的架构中我们可以看出，其由下面的几部分构成： Flume集群 Kafka集群 Storm集群从构建实时处理系统的角度出发，我们需要做的是，如何让数据在各个不同的集群系统之间打通（从上面的图示中也能很好地说明这一点），即需要做各个系统之前的整合，包括Flume与Kafka的阅读全文

posted @ 2019-05-20 20:47 -涂涂- 阅读(1480) 评论(0) 推荐(0)

mapReduce 大数据离线分析

摘要：数据分析一般分为两种，一种是在线一种是离线流程：一般都是对于日志文件的采集和分析场景实例（某个电商网站产生的用户访问日志（access.log）进行离线处理与分析的过程） 1、需求：基于MapReduce的处理方式，最后会统计出某一天不同省份访问该网站的uv与pv（pv就是点击量，uv是独立阅读全文

posted @ 2019-05-20 19:46 -涂涂- 阅读(1016) 评论(0) 推荐(0)

flume安装使用+根据数据源分类

摘要：安装搭建： 1）解压下载的flume（安装jdk1.6及其以上） 2）在conf文件夹里面建立example.conf文件 3)启动flume 4）新建窗口运行 5）在该窗口输入，另一个窗口会输出记录 flume对接不同的数据源 1、Avro Source 监听AVRO端口来接受来自外部AVRO客户阅读全文

posted @ 2019-05-20 16:27 -涂涂- 阅读(918) 评论(0) 推荐(0)

mongodb数据库操作 python+命令行

摘要：一、python操作二、命令行参考： https://www.cnblogs.com/aademeng/articles/9779271.html https://baijiahao.baidu.com/s?id=1612042780837847633&wfr=spider&for=pc 阅读全文

posted @ 2019-05-18 19:37 -涂涂- 阅读(579) 评论(0) 推荐(0)

mongodb compass 启动报错（）

摘要：报错：原因：由于直接关闭客户端，进程没关导致下次开启时，后台还是运行的所以无法重新开启解决办法： 1、查看进程 2、然后杀死他！！！！一般杀死第一个就可以了。参考：https://blog.csdn.net/wangyue12138/article/details/82661624 阅读全文

posted @ 2019-05-17 22:11 -涂涂- 阅读(983) 评论(0) 推荐(0)

kafka java项目测试使用

摘要：引入依赖生产者消费者如果连接kafka超时：修改kafka的config/server.properties文件中的如下内容： advertised.listeners=PLAINTEXT://IP地址:9092 使用ifconfig或者ip a指令获取安装机器的ip地址，加入获取到的测试机阅读全文

posted @ 2019-05-15 16:33 -涂涂- 阅读(1658) 评论(0) 推荐(0)

kafka安装linux版

摘要：安装实战 kafka安装包下载（注意：这里选择的安装包是2.11系列的1.1.0版本的） wget https://archive.apache.org/dist/kafka/1.1.0/kafka_2.11-1.1.0.tgz 安装启动服务首先，我们需要下载并且安装zk和kafka,并且将这两个阅读全文

posted @ 2019-05-15 16:31 -涂涂- 阅读(287) 评论(0) 推荐(0)

kafka windows安装命令行下使用测试

摘要：1、zookeeper安装：（https://zookeeper.apache.org/releases.html） ①进入zookeeper的相关设置所在的文件目录，例如本文的：D:\bigdata\zookeeper-3.4.10\conf ②将"zoo_sample.cfg"重命名为"zoo 阅读全文

posted @ 2019-05-15 16:26 -涂涂- 阅读(646) 评论(0) 推荐(0)

canal使用

摘要：报错信息：com.alibaba.druid.pool.DruidDataSource - testWhileIdle is true, validationQuery not set 解决方法：找到conf/canal.properties 文件里面的 canal.instance.tsdb.s 阅读全文

posted @ 2019-05-10 11:21 -涂涂- 阅读(179) 评论(0) 推荐(0)

错误: 找不到或无法加载主类 java操作hbase出错

摘要：用java操作hbase 利用maven引入hbase包后发现无法启动程序，然后网上说是包的冲突。我引入了下面三个包然后程序就不能运行了。 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-it</artifact 阅读全文

posted @ 2019-05-08 19:33 -涂涂- 阅读(2401) 评论(0) 推荐(0)

org.apache.hadoop.conf.Configuration无法引用解决方法

摘要：我用的是Hadoop-common 2.6.4jar，可是明明包里面有这个类却引用不了，然后我看了下包里面是一个抽象类。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。所以就换了一个2.7.0然后就可以引用了。阅读全文

posted @ 2019-05-08 18:18 -涂涂- 阅读(18912) 评论(0) 推荐(0)

MapReduce

摘要：mapreduce关键点： 1、当一个reduce worker读取了所有的中间数据后，它通过中间key值对缓冲数据排序，以便相同key值的出现组织在一起。由于通常许多不同的key值映射到同一reduce任务上，因此排序是需要的。如果中间数据量太大而无法适应内存，那么就使用外部排序。reduce的阅读全文

posted @ 2019-03-03 15:10 -涂涂- 阅读(119) 评论(0) 推荐(0)

大数据——hbase

摘要：进入hbase 部分命令清单查询服务器状态 status 查询hbase版本 version 1. 创建一个表 2. 列出所有的表 3. 获得表的描述 4. 删除一个列族 disable alter enable 5. 查看表是否存在 6. 判断表是否为‘enable’ 判断表是否为‘disabl 阅读全文

posted @ 2019-03-02 21:07 -涂涂- 阅读(210) 评论(0) 推荐(0)

hdfs基本操作

摘要：hdfs基本操作 1、查询命令 hadoop dfs -ls / 查询/目录下的所有文件和文件夹 hadoop dfs -ls -R 以递归的方式查询/目录下的所有文件 2、创建文件夹 hadoop dfs -mkdir /test 创建test文件夹 3、创建新的空文件 hadoop dfs -t 阅读全文

posted @ 2019-03-02 19:59 -涂涂- 阅读(317) 评论(0) 推荐(0)

-涂涂-

随笔分类 - 大数据

公告