hadoop中的DistributedCache 2
摘要:WordCount.javaHadoop的分布式缓存机制使得一个job的所有map或reduce可以访问同一份文件。在任务提交后,hadoop将由-files和-archive选项指定的文件复制到HDFS上(JobTracker的文件系统)。在任务运行前,TaskTracker从JobTracker文件系统复制文件到本地磁盘作为缓存,这样任务就可以访问这些文件。对于job来说,它并不关心文件是从哪儿来的。在使用DistributedCache时,对于本地化文件的访问,通常使用Symbolic Link来访问,这样更方便。通过URI hdfs://namenode/test/input/file
阅读全文
fedora 14 的163的yum源
摘要:Fedora 14 yum 源 上海交大 [Fedora-ftp.sjtu.edu.cn]name=Fedora 14 – i386baseurl=http://ftp.sjtu.edu.cn/fedora/linux/releases/14/Fedora/i386/os/enabled=1gpgcheck=0gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-fedora[Everything-ftp.sjtu.edu.cn]name=Everything 14 – i386baseurl=http://ftp.sjtu.edu.cn/fedora/linu
阅读全文
UML 类图中的几种关系
摘要:http://blog.csdn.net/dylgsy/article/details/1076044http://blog.csdn.net/tianhai110/article/details/6339565UML 类图中的 ”关联关系(association) “、”聚合关系(aggregation) “、”合成关系 (compostion)“ 和”依赖关系 (dependency)“ 不是很容易区分清楚,《UML distilled》 对这几个关系也没有解释的特别清楚。近日翻阅《Java 与模式》,发现其中对这些关系有较为清晰的描述,特摘录如下:1、关联关系 (association)
阅读全文
hadoop MapReduce Job失效模型
摘要:http://www.cnblogs.com/OnlyXP/archive/2009/09/08/1562221.htmlhadoop设计的初衷就是容错.计算任务(MapReduce task)能够在节点宕机或其它随机错误下自行恢复. 但是hadoop并不完美,在实际运营中,我发现MapReduce Job仍然经常会因为一些偶发性错误而 运行失败.所以我决定深入探究一下各种不同因素是如何导致job失败的. 如果一个hadoop job的某个给定task在失败预定次(默认是4)后,整个job就会失败. 这可以通过"mapred.map.max.attempts"和"
阅读全文
Hadoop 的 TotalOrderPartitioner
摘要:http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的reduce。2)效率,分配速度一定要快。Mapreduce提供的PartitionerMapreduce默认的partitioner是HashPartitioner。除了这个mapreduce还提供了3种partitioner。如下图所示:patit
阅读全文
linux man 手册各个章节的意义和用法
摘要:Linux的man很强大,该手册分成很多section,使用man时可以指定不同的section来浏览,各个section意义如下:1 - commands2 - system calls3 - library calls4 - special files5 - file formats and convertions6 - games for linux7 - macro packages and conventions8 - system management commands9 - 其他解释一下:1是普通的命令2是系统调用,如open,write之类的(通过这个,至少可以很方便的查到调.
阅读全文
grep与正则表达式
摘要:http://my.unix-center.net/~Simon_fu/?p=469 虽然正则表达式经常都在用,但是很少能够静下心来仔细的总结一下。最近看了一个台湾人的网站叫做鸟哥Linux私房菜,关于正则表达式的描述挺详细的。在此,我进行一下总结,如果想仔细的学习正则表达式,请访问鸟哥Linux私房菜,台湾同胞的网站是繁体中文的,需要点儿耐心。 正则表达式只是字符串的一种描述,只有和支持正则表达式的工具相结合才能进行字符串处理。本文以grep为例来讲解正则表达式。grep命令功能:输入文件的每一行中查找字符串。基本用法:grep [-acinv] [--color=auto] [-A n].
阅读全文
C/C++ 宏详解
摘要:http://tech.e800.com.cn/articles/2009/727/1248665385863_1.html 众多C++书籍都忠告我们C语言宏是万恶之首,但事情总不如我们想象的那么坏,就如同goto一样。宏有一个很大的作用,就是自动为我们产生代码。如果说模板可以为我们产生各种型别的代码(型别替换),那么宏其实可以为我们在符号上产生新的代码(即符号替换、增加)。关于宏的一些语法问题,可以在google上找到。相信我,你对于宏的了解绝对没你想象的那么多。如果你还不知道#和##,也不知道prescan,那么你肯定对宏的了解不够。我稍微讲解下宏的一些语法问题(说语法问题似乎不妥,mac
阅读全文
C++/C宏定义中## 连接符与# 符的含义
摘要:http://blog.163.com/wshyao@126/blog/static/1070451420081018103237836/## 连接符与# 符 ## 连接符号由两个井号组成,其功能是在带参数的宏定义中将两个子串(token)联接起来,从而形成一个新的子串。但它不可以是第一个或者最后一个子串。所谓的子串(token)就是指编译器能够识别的最小语法单元。具体的定义在编译原理里有详尽的解释,但不知道也无所谓。同时值得注意的是#符是把传递过来的参数当成字符串进行替代。下面来看看它们是怎样工作的。这是MSDN上的一个例子。 假设程序中已经定义了这样一个带参数的宏:#define p...
阅读全文
signal(SIGHUP, SIG_IGN)的含义
摘要:http://www.niuzhangpeng.com/?p=58signal(SIGHUP, SIG_IGN);signal信号函数,第一个参数表示需要处理的信号值(SIGHUP),第二个参数为处理函数或者是一个表示,这里,SIG_IGN表示忽略SIGHUP那个注册的信号。SIGHUP和控制台操作有关,当控制台被关闭时系统会向拥有控制台sessionID的所有进程发送HUP信号,默认HUP信号的action是 exit,如果远程登陆启动某个服务进程并在程序运行时关闭连接的话会导致服务进程退出,所以一般服务进程都会用nohup工具启动或写成一个 daemon。
阅读全文