12 2012 档案

摘要:以Storm开发指南中的一个简单例子开始 import backtype.storm.Config; import backtype.storm.LocalCluster; import backtype.storm.StormSubmitter; import backtype.storm.... 阅读全文
posted @ 2012-12-30 16:21 飞天的白猪 阅读(110) 评论(0) 推荐(0) 编辑
摘要:wget是一个从网络上自动下载文件的自由工具,支持通过HTTP、HTTPS、FTP三个最常见的TCP/IP协议下载,并可以使用HTTP代理。 wget命令的参数非常多,想要记住基本不可能,要用的时候直接RTFM吧 wget 镜像网站 wget --mirror -w 2 --html-ex... 阅读全文
posted @ 2012-12-30 15:05 飞天的白猪 阅读(155) 评论(0) 推荐(0) 编辑
摘要:Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于... 阅读全文
posted @ 2012-12-30 09:30 飞天的白猪 阅读(150) 评论(0) 推荐(0) 编辑
摘要:Storm正式是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.8.1,... 阅读全文
posted @ 2012-12-29 23:52 飞天的白猪 阅读(119) 评论(0) 推荐(0) 编辑
摘要:字典又称为关联表,是一种由键映射到值的数据结构,具有查找时间是常数的性能 一个字典条目的语法格式是 键:值。 而且,多条字典条目被包含在( { } ) 里。 1.创建字典和给字典赋值 wordcount={"hello":10,"world":32} 多从赋值,同时给多个字典赋值 (... 阅读全文
posted @ 2012-12-29 22:44 飞天的白猪 阅读(108) 评论(0) 推荐(0) 编辑
摘要:霍夫曼编码是可变字长编码(VLC)的一种。 Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就称Huffman编码。 霍夫曼编码的具体方法:先按出现的概率大小排队,把两个最小的概率相加,作为新的概率... 阅读全文
posted @ 2012-12-10 12:55 飞天的白猪 阅读(512) 评论(0) 推荐(0) 编辑
摘要:Yarn是新一代的MapReduce执行框架(简称为MapReduce2)和老版本的MapReduce执行框架(简称为MapReduce1)相比最大的改变是,将MapReduce1的JobTracker分解为两个部分,资源管理器和作业调度器。MapReduce2有一个全局的资源管理器(R... 阅读全文
posted @ 2012-12-09 17:06 飞天的白猪 阅读(271) 评论(0) 推荐(0) 编辑
摘要:MapReduce作业输出 hadoop的输出格式和输入格式对应,都是实现类OutputFormat,按使用方式分为三种,文本格式,二进制格式,自定义文件输出(??Multiple outputs)。 1.文本格式 TextOutputFormat是Hadoop的默认输出格式,对应于KeyV... 阅读全文
posted @ 2012-12-08 21:50 飞天的白猪 阅读(138) 评论(0) 推荐(0) 编辑