随笔分类 -  Hadoop

1 2 3 下一页

hadoop 2.2.0 关于map和reduce的个数的设置
摘要:关于hadoop中的map过程,我的理解是每一个map系统会开启一个JVM进程来处理,map之间相互并行,map函数内串行。这样的想法是否正确? 由于想在hadoop集群上算一个初始输入数据不多,但是计算很复杂的程序,希望通过mapreduce来达到并行计算的目的。可以通过job.setNumRed 阅读全文

posted @ 2016-03-19 11:55 1130136248 阅读(672) 评论(0) 推荐(0) 编辑

hadoop MapReduce - 从作业、任务(task)、管理员角度调优
摘要:Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。 一 应用程序编写规范 1.设置Combiner 对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中 阅读全文

posted @ 2016-02-22 19:17 1130136248 阅读(844) 评论(0) 推荐(1) 编辑

hadoop 常用配置项【转】
摘要:hadoop 常用配置项【转】 core-site.xml name value Description fs.default.name hdfs://hadoopmaster:9000 定义HadoopMaster的URI和端口 fs.checkpoint.dir /opt/data/hadoop 阅读全文

posted @ 2016-02-22 19:12 1130136248 阅读(343) 评论(0) 推荐(0) 编辑

深度分析如何在Hadoop中控制Map的数量
摘要:深度分析如何在Hadoop中控制Map的数量 guibin.beijing@gmail.com 很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input 占据了多少block,就应该启动多少个Mapper。如果输入的文 阅读全文

posted @ 2016-02-22 19:11 1130136248 阅读(413) 评论(0) 推荐(0) 编辑

在hadoop 的任务中设置 map数量
摘要:试验了一下: 调整mapred-site.xml中mapred.min.split.size的值可以改变map的数量 首先设置了hdfs-site.xml中的dfs.block.size为20M,测试文件为72M 然后调整mapred-site.xml中mapred.min.split.size的值 阅读全文

posted @ 2016-02-22 18:59 1130136248 阅读(1260) 评论(0) 推荐(0) 编辑

如何在hadoop中控制map的个数
摘要:hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map 的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先 阅读全文

posted @ 2016-02-22 17:33 1130136248 阅读(875) 评论(0) 推荐(0) 编辑

Agent admitted failure to sign using the key
摘要:SSH生成id_rsa, id_rsa.pub后,连接服务器却报: Agent admitted failure to sign using the key 错误。 解决方法: 在当前用户下执行命令: ssh-add 即可解决。 参考: [1] http://blog.sina.com.cn/s/b 阅读全文

posted @ 2016-02-20 22:32 1130136248 阅读(202) 评论(0) 推荐(0) 编辑

ssh无密码登录设置方法以及出现问题 ECDSA host key 和IP地址对应的key不同的解决
摘要:最近在做hadoop,因为要求各主机之间的用户必须相同,且为方便远程登录,需配置无密码登录 先附上ssh无密码登录设置方法: 先生成密钥并配置无ssh无密码登录本机,输入命令: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pu 阅读全文

posted @ 2016-02-20 21:52 1130136248 阅读(1315) 评论(0) 推荐(0) 编辑

hadoop 及hbase zookeeper 经常出现问题
摘要:往往是以下几个1/ 各节点时间不统一(写shell文件统一时间)2/配置文件 /etc/hosts文件中ip地址配置错误(更新ip)3/断网后重启机器 ip地址被修改(更新配置文件中的ip) 阅读全文

posted @ 2016-01-26 17:55 1130136248 阅读(256) 评论(0) 推荐(0) 编辑

Hadoop上的中文分词与词频统计实践 (有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html)
摘要:解决问题的方案Hadoop上的中文分词与词频统计实践首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/。小虾的这个统计武侠小说人名热度的段子很有意思,照虎画猫来实践一下。与其不... 阅读全文

posted @ 2016-01-19 21:51 1130136248 阅读(512) 评论(0) 推荐(0) 编辑

学习大数据看门的几本书
摘要:Hadoop实战Hbase权威指南深入理解大叔据Hadoop硬实战Hadoop应用开发技术详解Hadoop应用开发实战详解ElasticSearch 服务器开发Lucene实战 阅读全文

posted @ 2016-01-16 16:59 1130136248 阅读(296) 评论(0) 推荐(0) 编辑

hadoop pig入门总结
摘要:在这里贴一个pig源码的分析,做pig很长时间没做笔记,不包含任何细节,以后有机会再说吧http://blackproof.iteye.com/blog/1769219hadoop pig入门总结pig简介pig数据类型pig latin语法pig udf自定义pig derived衍生推荐书籍 p... 阅读全文

posted @ 2016-01-15 11:10 1130136248 阅读(479) 评论(0) 推荐(0) 编辑

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
摘要:初接触Hadoop技 术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如 某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系这里我... 阅读全文

posted @ 2016-01-14 14:30 1130136248 阅读(692) 评论(0) 推荐(0) 编辑

MapReduce,DataJoin,链接多数据源
摘要:主要介绍用DataJoin类来链接多数据源,先看一下例子,假设二个数据源customs和orderscustomer ID Name PhomeNumber1 赵一 025-5455-5662 钱二 025-4587-5653 ... 阅读全文

posted @ 2016-01-14 11:38 1130136248 阅读(186) 评论(0) 推荐(0) 编辑

mapreduce 依赖组合
摘要:mport java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apa... 阅读全文

posted @ 2015-12-01 19:57 1130136248 阅读(304) 评论(0) 推荐(0) 编辑

mapreduce 顺序组合
摘要:import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.ap... 阅读全文

posted @ 2015-12-01 19:56 1130136248 阅读(151) 评论(0) 推荐(0) 编辑

Hadoop: LongWritable cannot be cast to org.apache.hadoop.io.IntWritable
摘要:写MR Job的时候遇到一个坑爹的异常:LongWritable cannot be cast to org.apache.hadoop.io.IntWritable当写Map的时候,key的默认输入就是LongWritable。因为LongWritable指代Block中的数据偏移量。所以把它强行... 阅读全文

posted @ 2015-12-01 16:30 1130136248 阅读(1935) 评论(0) 推荐(0) 编辑

hadoop中联结不同来源数据
摘要:装载自http://www.cnblogs.com/dandingyy/archive/2013/03/01/2938462.html有时可能需要对来自不同源的数据进行综合分析:如下例子:有Customers文件,每个记录3个域:Custom ID, Name, Phone Number Custo... 阅读全文

posted @ 2015-12-01 10:44 1130136248 阅读(417) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—21.Hadoop2的改进内容简介
摘要:Hadoop学习笔记—21.Hadoop2的改进内容简介Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:(1)HDFS的NameNode可以以集群的方式布署,增强了NameNode... 阅读全文

posted @ 2015-11-18 17:13 1130136248 阅读(198) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
摘要:Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p... 阅读全文

posted @ 2015-11-18 17:12 1130136248 阅读(224) 评论(0) 推荐(0) 编辑

1 2 3 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示