冰上逐狐 - 博客园

2016年1月8日

摘要：开启关闭： 1、开启kafka服务： bin/kafka-server-start.sh config/server.properties >logs/kafka-server.log 2>&1 & >logs/kafka-server.log ：将产生的日志输入到logs/kafka-server.log文件 2>&1：将错误输出的日志重定向为到标准日志输出的文件中 &：最后一个&代表... 阅读全文

posted @ 2016-01-08 19:18 冰上逐狐阅读(344) 评论(0) 推荐(0)

16-1-5：MapReduce

摘要：？？？1、加载程序运行时所需要的外部类：命令： bin/hadoop jar xxxx.jar /file1 /out –D mapred.input.dir=/test/input1 可以直接指定mapred.input.dir的值 2、文件读取顺序：应用场景：当处理多个文件中的数据，且数据之间有先后关系例如：有两个文件：一个是城市跟手机号的对应数据。一个是手机... 阅读全文

posted @ 2016-01-08 19:06 冰上逐狐阅读(180) 评论(0) 推荐(0)

2016年1月3日

MapReduce概述

摘要： 1、MapReduce是一种分布式计算模型2、MapReduce合并了两种经典函数：映射（Mapping）:对集合里每一个目标都应用一个操作。例如：如果你想把表单里每个单元格乘以二，那么把这个函数单独地应用在每个单元格上的操作就属于mapping。化简（Reducing）：遍历集合中的元素来返回一个... 阅读全文

posted @ 2016-01-03 18:11 冰上逐狐阅读(188) 评论(0) 推荐(0)

MapReduce的代码实现过程分析

摘要：需求：使用mapreduce实现文件a.txt中不同单词出现的次数map之前：1）：map处理之前的数据我们称为map例：map 在这里我们一次读取一行，行号就相当于k1,行的所有内容相当于v1map阶段：继承org.apache.hadoop.mapreduce.Mapper重写map2）将map... 阅读全文

posted @ 2016-01-03 17:39 冰上逐狐阅读(771) 评论(0) 推荐(0)

MapReduce

摘要： mapreduce分为两个阶段：程序在每个节点上的计算和最终结果的汇总。map阶段：1）处理的数据比较大，而且数据都是分布存储在datanode中。2）由于数据量比较大，而java程序比较小，所以将程序放到每一个数据节点上执行会节省数据传输的时间。而且可以实现并行计算，提高效率。reduce阶段：3... 阅读全文

posted @ 2016-01-03 17:38 冰上逐狐阅读(175) 评论(0) 推荐(0)

HDFS2—SequenceFile(小文件的解决方案)

摘要： 1、这种方法是说，使用filename作为key，并且file contents作为value。实践中这种方式非常管用。2、和HAR不同的是，这种方式还支持压缩。3、block的压缩在许多情况下都是最好的选择，因为它将多个 records压缩到一起，而不是一个record一个压缩。4、在存储结构上，... 阅读全文

posted @ 2016-01-03 17:36 冰上逐狐阅读(844) 评论(0) 推荐(0)

HDFS2—federation

摘要：为什么会出现联盟？一个集群中datanode的存储可以看成是无限制的，而namenode的存储是有限的，当数据过多时，namenode联盟解决了在不同的hdfs之间，datanode的共享问题。共享的是datanode节点，而不是共享的datanode的数据。相当于共享的是这个datanode所在的... 阅读全文

posted @ 2016-01-03 17:34 冰上逐狐阅读(181) 评论(0) 推荐(0)

2016年1月1日

hdfs

摘要： 1、什么是分布式文件系统？是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。 2、为什么会有分布式文件系统？数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文... 阅读全文

posted @ 2016-01-01 17:25 冰上逐狐阅读(346) 评论(0) 推荐(0)

缓解爬虫ip被封的概率

摘要： 1、设置爬虫爬取时间间隔 2、使用代理ip 3、利用分布式，让不同服务器上的爬虫随机抓取不同网站的数据，以延长同一个ip抓取同一网站url的频率。阅读全文

posted @ 2016-01-01 17:02 冰上逐狐阅读(182) 评论(0) 推荐(0)

2015年12月26日

zookeeper集群搭建

摘要： 1：在192.168.80.200服务器上执行这些操作，把这个zookeeper-3.4.5.tar.gz文件上传到服务器上的/usr/local目录下 2：解压：tar -zxvf zookeeper-3.4.5.tar.gz 3：重命名：mv zookeeper-3.4.5 zookeeper 4：cd zookeeper/conf 5：修改配置文件的名称：mv zoo_... 阅读全文

posted @ 2015-12-26 20:27 冰上逐狐阅读(136) 评论(0) 推荐(0)