Hadoop - 随笔分类 - 1130136248

hadoop 2.2.0 关于map和reduce的个数的设置

摘要：关于hadoop中的map过程，我的理解是每一个map系统会开启一个JVM进程来处理，map之间相互并行，map函数内串行。这样的想法是否正确？由于想在hadoop集群上算一个初始输入数据不多，但是计算很复杂的程序，希望通过mapreduce来达到并行计算的目的。可以通过job.setNumRed 阅读全文

posted @ 2016-03-19 11:55 1130136248 阅读(672) 评论(0) 推荐(0) 编辑

hadoop MapReduce - 从作业、任务（task）、管理员角度调优

摘要：Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一应用程序编写规范 1.设置Combiner 对于一大批MapReduce程序，如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中阅读全文

posted @ 2016-02-22 19:17 1130136248 阅读(844) 评论(0) 推荐(1) 编辑

hadoop 常用配置项【转】

摘要：hadoop 常用配置项【转】 core-site.xml name value Description fs.default.name hdfs://hadoopmaster:9000 定义HadoopMaster的URI和端口 fs.checkpoint.dir /opt/data/hadoop 阅读全文

posted @ 2016-02-22 19:12 1130136248 阅读(343) 评论(0) 推荐(0) 编辑

深度分析如何在Hadoop中控制Map的数量

摘要：深度分析如何在Hadoop中控制Map的数量 guibin.beijing@gmail.com 很多文档中描述，Mapper的数量在默认情况下不可直接控制干预，因为Mapper的数量由输入的大小和个数决定。在默认情况下，最终input 占据了多少block，就应该启动多少个Mapper。如果输入的文阅读全文

posted @ 2016-02-22 19:11 1130136248 阅读(413) 评论(0) 推荐(0) 编辑

在hadoop 的任务中设置 map数量

摘要：试验了一下：调整mapred-site.xml中mapred.min.split.size的值可以改变map的数量首先设置了hdfs-site.xml中的dfs.block.size为20M，测试文件为72M 然后调整mapred-site.xml中mapred.min.split.size的值阅读全文

posted @ 2016-02-22 18:59 1130136248 阅读(1260) 评论(0) 推荐(0) 编辑

如何在hadoop中控制map的个数

摘要：hadooop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map 的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。为了方便介绍，先阅读全文

posted @ 2016-02-22 17:33 1130136248 阅读(875) 评论(0) 推荐(0) 编辑

Agent admitted failure to sign using the key

摘要：SSH生成id_rsa, id_rsa.pub后，连接服务器却报： Agent admitted failure to sign using the key 错误。解决方法：在当前用户下执行命令： ssh-add 即可解决。参考： [1] http://blog.sina.com.cn/s/b 阅读全文

posted @ 2016-02-20 22:32 1130136248 阅读(202) 评论(0) 推荐(0) 编辑

ssh无密码登录设置方法以及出现问题 ECDSA host key 和IP地址对应的key不同的解决

摘要：最近在做hadoop，因为要求各主机之间的用户必须相同，且为方便远程登录，需配置无密码登录先附上ssh无密码登录设置方法：先生成密钥并配置无ssh无密码登录本机，输入命令： ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pu 阅读全文

posted @ 2016-02-20 21:52 1130136248 阅读(1315) 评论(0) 推荐(0) 编辑

hadoop 及hbase zookeeper 经常出现问题

摘要：往往是以下几个1/ 各节点时间不统一（写shell文件统一时间）2/配置文件 /etc/hosts文件中ip地址配置错误（更新ip）3/断网后重启机器 ip地址被修改（更新配置文件中的ip）阅读全文

posted @ 2016-01-26 17:55 1130136248 阅读(256) 评论(0) 推荐(0) 编辑

Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）

摘要：解决问题的方案Hadoop上的中文分词与词频统计实践首先来推荐相关材料：http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/。小虾的这个统计武侠小说人名热度的段子很有意思，照虎画猫来实践一下。与其不... 阅读全文

posted @ 2016-01-19 21:51 1130136248 阅读(512) 评论(0) 推荐(0) 编辑

学习大数据看门的几本书

摘要：Hadoop实战Hbase权威指南深入理解大叔据Hadoop硬实战Hadoop应用开发技术详解Hadoop应用开发实战详解ElasticSearch 服务器开发Lucene实战阅读全文

posted @ 2016-01-16 16:59 1130136248 阅读(296) 评论(0) 推荐(0) 编辑

hadoop pig入门总结

摘要：在这里贴一个pig源码的分析，做pig很长时间没做笔记，不包含任何细节，以后有机会再说吧http://blackproof.iteye.com/blog/1769219hadoop pig入门总结pig简介pig数据类型pig latin语法pig udf自定义pig derived衍生推荐书籍 p... 阅读全文

posted @ 2016-01-15 11:10 1130136248 阅读(479) 评论(0) 推荐(0) 编辑

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

摘要：初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了，我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂，不要紧糊涂的不止你一个，如某个菜鸟的帖子的疑问，when to use Hbase and when to use Hive？....请教了^_^没关系这里我... 阅读全文

posted @ 2016-01-14 14:30 1130136248 阅读(692) 评论(0) 推荐(0) 编辑

MapReduce，DataJoin，链接多数据源

摘要：主要介绍用DataJoin类来链接多数据源，先看一下例子，假设二个数据源customs和orderscustomer ID Name PhomeNumber1 赵一 025-5455-5662 钱二 025-4587-5653 ... 阅读全文

posted @ 2016-01-14 11:38 1130136248 阅读(186) 评论(0) 推荐(0) 编辑

mapreduce 依赖组合

摘要：mport java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apa... 阅读全文

posted @ 2015-12-01 19:57 1130136248 阅读(304) 评论(0) 推荐(0) 编辑

mapreduce 顺序组合

摘要：import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.ap... 阅读全文

posted @ 2015-12-01 19:56 1130136248 阅读(151) 评论(0) 推荐(0) 编辑

Hadoop: LongWritable cannot be cast to org.apache.hadoop.io.IntWritable

摘要：写MR Job的时候遇到一个坑爹的异常：LongWritable cannot be cast to org.apache.hadoop.io.IntWritable当写Map的时候，key的默认输入就是LongWritable。因为LongWritable指代Block中的数据偏移量。所以把它强行... 阅读全文

posted @ 2015-12-01 16:30 1130136248 阅读(1935) 评论(0) 推荐(0) 编辑

hadoop中联结不同来源数据

摘要：装载自http://www.cnblogs.com/dandingyy/archive/2013/03/01/2938462.html有时可能需要对来自不同源的数据进行综合分析：如下例子：有Customers文件，每个记录3个域：Custom ID, Name, Phone Number Custo... 阅读全文

posted @ 2015-12-01 10:44 1130136248 阅读(417) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—21.Hadoop2的改进内容简介

摘要：Hadoop学习笔记—21.Hadoop2的改进内容简介Hadoop2相比较于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了很大的提高，Hadoop2中有两个重要的变更：（1）HDFS的NameNode可以以集群的方式布署，增强了NameNode... 阅读全文

posted @ 2015-11-18 17:13 1130136248 阅读(198) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—20.网站日志分析项目案例（三）统计分析

摘要：Hadoop学习笔记—20.网站日志分析项目案例（三）统计分析网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例（二）数据清洗：http://www.cnblogs.com/edisonchou/p... 阅读全文

posted @ 2015-11-18 17:12 1130136248 阅读(224) 评论(0) 推荐(0) 编辑

随笔分类 - Hadoop

hadoop 2.2.0 关于map和reduce的个数的设置

hadoop MapReduce - 从作业、任务（task）、管理员角度调优

hadoop 常用配置项【转】

深度分析如何在Hadoop中控制Map的数量

在hadoop 的任务中设置 map数量

如何在hadoop中控制map的个数

Agent admitted failure to sign using the key

ssh无密码登录设置方法以及出现问题 ECDSA host key 和IP地址对应的key不同的解决

hadoop 及hbase zookeeper 经常出现问题

Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）

学习大数据看门的几本书

hadoop pig入门总结

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

MapReduce，DataJoin，链接多数据源

mapreduce 依赖组合

mapreduce 顺序组合

Hadoop: LongWritable cannot be cast to org.apache.hadoop.io.IntWritable

hadoop中联结不同来源数据

Hadoop学习笔记—21.Hadoop2的改进内容简介

Hadoop学习笔记—20.网站日志分析项目案例（三）统计分析

导航

统计

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论