2016年1月8日
摘要: 开启关闭: 1、开启kafka服务: bin/kafka-server-start.sh config/server.properties >logs/kafka-server.log 2>&1 & >logs/kafka-server.log :将产生的日志输入到logs/kafka-server.log文件 2>&1:将错误输出的日志重定向为到标准日志输出的文件中 &:最后一个&代表... 阅读全文
posted @ 2016-01-08 19:18 冰上逐狐 阅读(324) 评论(0) 推荐(0) 编辑
摘要: ???1、加载程序运行时所需要的外部类: 命令: bin/hadoop jar xxxx.jar /file1 /out –D mapred.input.dir=/test/input1 可以直接指定mapred.input.dir的值 2、文件读取顺序: 应用场景:当处理多个文件中的数据,且数据之间有先后关系 例如: 有两个文件:一个是城市跟手机号的对应数据。一个是手机... 阅读全文
posted @ 2016-01-08 19:06 冰上逐狐 阅读(166) 评论(0) 推荐(0) 编辑
  2016年1月3日
摘要: 1、MapReduce是一种分布式计算模型2、MapReduce合并了两种经典函数:映射(Mapping):对集合里每一个目标都应用一个操作。例如:如果你想把表单里每个单元格乘以二,那么把这个函数单独地应用在每个单元格上的操作就属于mapping。化简(Reducing):遍历集合中的元素来返回一个... 阅读全文
posted @ 2016-01-03 18:11 冰上逐狐 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 需求:使用mapreduce实现文件a.txt中不同单词出现的次数map之前:1):map处理之前的数据我们称为map例:map 在这里我们一次读取一行,行号就相当于k1,行的所有内容相当于v1map阶段:继承org.apache.hadoop.mapreduce.Mapper重写map2)将map... 阅读全文
posted @ 2016-01-03 17:39 冰上逐狐 阅读(759) 评论(0) 推荐(0) 编辑
摘要: mapreduce分为两个阶段:程序在每个节点上的计算和最终结果的汇总。map阶段:1)处理的数据比较大,而且数据都是分布存储在datanode中。2)由于数据量比较大,而java程序比较小,所以将程序放到每一个数据节点上执行会节省数据传输的时间。而且可以实现并行计算,提高效率。reduce阶段:3... 阅读全文
posted @ 2016-01-03 17:38 冰上逐狐 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 1、这种方法是说,使用filename作为key,并且file contents作为value。实践中这种方式非常管用。2、和HAR不同的是,这种方式还支持压缩。3、block的压缩在许多情况下都是最好的选择,因为它将多个 records压缩到一起,而不是一个record一个压缩。4、在存储结构上,... 阅读全文
posted @ 2016-01-03 17:36 冰上逐狐 阅读(827) 评论(0) 推荐(0) 编辑
摘要: 为什么会出现联盟?一个集群中datanode的存储可以看成是无限制的,而namenode的存储是有限的,当数据过多时,namenode联盟解决了在不同的hdfs之间,datanode的共享问题。共享的是datanode节点,而不是共享的datanode的数据。相当于共享的是这个datanode所在的... 阅读全文
posted @ 2016-01-03 17:34 冰上逐狐 阅读(168) 评论(0) 推荐(0) 编辑
  2016年1月1日
摘要: 1、什么是分布式文件系统?是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 2、为什么会有分布式文件系统?数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文... 阅读全文
posted @ 2016-01-01 17:25 冰上逐狐 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 1、设置爬虫爬取时间间隔 2、使用代理ip 3、利用分布式,让不同服务器上的爬虫随机抓取不同网站的数据,以延长同一个ip抓取同一网站url的频率。 阅读全文
posted @ 2016-01-01 17:02 冰上逐狐 阅读(175) 评论(0) 推荐(0) 编辑
  2015年12月26日
摘要: 1:在192.168.80.200服务器上执行这些操作,把这个zookeeper-3.4.5.tar.gz文件上传到服务器上的/usr/local目录下 2:解压:tar -zxvf zookeeper-3.4.5.tar.gz 3:重命名:mv zookeeper-3.4.5 zookeeper 4:cd zookeeper/conf 5:修改配置文件的名称:mv zoo_... 阅读全文
posted @ 2015-12-26 20:27 冰上逐狐 阅读(124) 评论(0) 推荐(0) 编辑