上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 57 下一页

2014年4月21日

Hbase 学习笔记(一) Hbase的物理模型 Hbase为每个值维护了一个多级索引,即<key, column family, column name, timestamp>

摘要: 比如第一个region 代表 0-100 第二个region 代表 101 -200的分的越多越不好管理,但同时方便了并行化处理,并发度越高,处理的越快。mapreduce就是按照rowkey的范围进行切分,这一点跟hdfs不一样。由于不同的同一个表的不同region有可能在不同的节点机器上... 阅读全文

posted @ 2014-04-21 10:33 雨渐渐 阅读(311) 评论(0) 推荐(0) 编辑

2014年4月17日

hadoop 各种counter 解读

摘要: http://blog.sina.com.cn/s/blog_61ef49250100uxwh.html经过了两天的休息与放松,精神饱满了吧?上星期我们学习了MapReduce的过程,了解了其基本过程,学会了如何在Ubuntu上搭建Hadoop环境,并测试了实例。今天我们来学些辅助性的东西,不然在测... 阅读全文

posted @ 2014-04-17 10:11 雨渐渐 阅读(1883) 评论(0) 推荐(0) 编辑

2014年4月14日

python 文件及文件夹操作

摘要: python 文件、目录操作(新增、移动、删除等)python 文件夹与文件操作mport string, os, sysdir = '/var'print '----------- no sub dir'files = os.listdir(dir)for f in files: print... 阅读全文

posted @ 2014-04-14 16:47 雨渐渐 阅读(391) 评论(0) 推荐(0) 编辑

hadoop 学习笔记 (十) mapreduce2.0

摘要: MapReduce的特色---不擅长的方面》实时计算 像mysql一样,在毫秒级或者秒级内返回结果》流式计算 Mapreduce的输入数据时静态的,不能动态变化 MapReduce自身的设计特点决定了数据源必须是静态的。》DAG计算 多个应用程序存在依赖关系,后一个应用程序的... 阅读全文

posted @ 2014-04-14 09:13 雨渐渐 阅读(164) 评论(0) 推荐(0) 编辑

2014年4月9日

matplotlib 绘图

摘要: http://blog.csdn.net/jkhere/article/details/9324823 都打一遍5 matplotlib-绘制精美的图表matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。它的文档相当完备,并且 Gallery页面 中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个页面中浏览/复制/粘贴一下,基本上都能搞定。本章节作为matplotlib的入门介绍,将较为深入地挖掘几个例子,从中理解和学习matplotl 阅读全文

posted @ 2014-04-09 14:48 雨渐渐 阅读(896) 评论(0) 推荐(0) 编辑

2014年4月3日

python 文档

摘要: python 文档 https://docs.python.org/2/library/index.html 阅读全文

posted @ 2014-04-03 17:13 雨渐渐 阅读(260) 评论(0) 推荐(0) 编辑

分布式执行脚本

摘要: 这东西能用于分布式部署东东么??bin/hadoop jar share/hadoop/yarn/hadoop-yarn-applications-distributedshell-2.2.0.jar org.apache.hadoop.yarn.applications.distributedshell.Client --jar share/hadoop/yarn/hadoop-yarn-applications-distributedshell-2.2.0.jar --shell_command ls --shell_args /tmp --num_containers 3 --conta 阅读全文

posted @ 2014-04-03 14:20 雨渐渐 阅读(310) 评论(0) 推荐(0) 编辑

Yarn应用程序编程实例

摘要: Yarn自带的Application示例程序:DistributedShell 和 UnManaged AM1 DistributedShell ,故名思意,是一个分布式运行shell命令的应用程序,它可以并行执行用户提供的shell命令或者shell脚本2 unManaged AM 演示了如何将ApplicationMaster运行在客户端,而不是由RM启动和管理。 阅读全文

posted @ 2014-04-03 11:16 雨渐渐 阅读(839) 评论(0) 推荐(0) 编辑

切切切切切切切

摘要: 10.0分阅读Distributedshell实例的Client和ApplicationMaster代码实现,回答以下问题:(1)在Client代码实现中,Client将应用程序提交到ResourceManager之前,将ApplicationMaster的jar包上传到了什么地方?HDFS(2)在ApplicationMaster代码实现中,如果一个task运行失败了,ApplicationMaster是怎么做的? 重新向Resourcemanager不断申请资源,直到资源足够,再与NodeManager通信,NodeManager会启动一个Container来重新运行task310.... 阅读全文

posted @ 2014-04-03 09:38 雨渐渐 阅读(262) 评论(0) 推荐(0) 编辑

2014年4月2日

关于如何设置reduce的个数

摘要: 在默认情况下,一个MapReduce Job如果不设置Reducer的个数,那么Reducer的个数为1。具体,可以通过JobConf.setNumReduceTasks(int numOfReduceTasks)方法来设置Reducer的个数。那么,如何确定Reducer的个数呢,Hadoop documentation 推荐了两个计算公式: 0.95 * NUMBER_OF_NODES * mapred.tasktracker.reduce.tasks.maximum 1.75 * NUMBER_OF_NODES * mapred.tasktracker.reduce.tas... 阅读全文

posted @ 2014-04-02 18:16 雨渐渐 阅读(2422) 评论(0) 推荐(0) 编辑

上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 57 下一页

导航