摘要: 1. 窗口函数 LEAD(column_name, n, default_value),用于统计窗口内往下第n行的值, LAG(column_name, n, default_value),用于统计窗口内往上第n行的值。 FIRST_VALUE(column_name),分组窗口排序后,截止到当前行 阅读全文
posted @ 2016-03-01 17:51 少妇眼中的蛮牛哥 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 本文翻译自官方文档:http://storm.apache.org/documentation/Concepts.html。 Topology,拓扑;类似MapReduce的Job。一个重要区别是MR的任务通常有结束,然而拓扑是一直运行下去的。在后端,拓扑就是一个Thrift结构体(structu... 阅读全文
posted @ 2016-01-25 17:40 少妇眼中的蛮牛哥 阅读(407) 评论(0) 推荐(0) 编辑
摘要: MR的shuffle阶段,用一张图就可以说明了: map阶段的输出结果会放在缓冲区中,另有一个较小的缓冲区维护了这个缓冲区中键值对+分区号的索引。当该缓冲区快满时,会对其索引进行排序,然后spill到磁盘上。当所有数据都spill到磁盘上后,会对这些碎片文件进行合并,这个过程中同样会发生排序和归并... 阅读全文
posted @ 2016-01-22 16:22 少妇眼中的蛮牛哥 阅读(877) 评论(0) 推荐(0) 编辑
摘要: 会话 3.2.0版本后支持一个“chroot”后缀,例如:“127.0.0.1:2181/app/a”,它的作用在于使之后的所有路径都变成基于此的相对路径。 zookeeper的会话使用64位的整数来标识。连接创建好时,这个会话ID会连同服务器创建的一个密码一同发给客户端。如果客户端断线,在重新连接... 阅读全文
posted @ 2016-01-21 18:54 少妇眼中的蛮牛哥 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 之前有段时间公司的kerberos认证老是出问题,因而我便不经深入调查,便先入为主地认为这就是MIT用来发paper的东西,毫无实用性,是为技术而技术的典范。为什么一定要它呢?我们搭的小hadoop集群没有它也能够运行正常。直到昨天,我需要把一个java程序部署到yarn上,在运行第一个极简单的示... 阅读全文
posted @ 2016-01-19 18:55 少妇眼中的蛮牛哥 阅读(4182) 评论(0) 推荐(0) 编辑
摘要: 有个每一次联系都让我刮目相看的高中同学,给我安利了两个微信公众号,关于电影的。他还让我给出评价,我说挺好的。事实上我不觉得怎么样,因为我不懂。但我知道我不能表现得狭隘,所以我说好,以此来表示我大方地承认,这些人比我看得远、想得深、行动力更强。而我则仍然上着无聊的班,在将来适当的时候,用100个名词... 阅读全文
posted @ 2015-08-14 01:45 少妇眼中的蛮牛哥 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 本人立志做一个对社会有用、对国家有利的程序员,严于律己,对老婆好。从今以后,不抽烟、不喝酒,努力学习科学文化知识,并积累于此、沉淀于此,与博客园的网友们共同进步、并肩成长。假以时日,能够扬名海内,则必诚心布道,启迪后人;如若不能,亦可陈列教训,以鉴将来。我从未有如此决心与意愿,为互联网革命及人类福祉... 阅读全文
posted @ 2015-08-06 21:33 少妇眼中的蛮牛哥 阅读(81) 评论(0) 推荐(0) 编辑