BoomOoO

2019年1月24日

摘要：因为新换了Windows 10 电脑，需要在新电脑重新安装所有的软件，包括mongodb 下载文件：首先在mongodb的官方网站上下载最新版本的mongodb安装程序，https://www.mongodb.com/，滚动网页至Try MongoDB for free 选择Community Se 阅读全文

posted @ 2019-01-24 17:33 BoomOoO 阅读(213) 评论(0) 推荐(0)

2019年1月17日

正则表达式之 \b

摘要：引用网上一段话： \b 是正则表达式规定的一个特殊代码（好吧，某些人叫它元字符，metacharacter），代表着单词的开头或结尾，也就是单词的分界处。虽然通常英文的单词是由空格，标点符号或者换行来分隔的，但是 \b 并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置。如果需要更精确的说法，阅读全文

posted @ 2019-01-17 11:05 BoomOoO 阅读(12249) 评论(3) 推荐(4)

2019年1月16日

collect_list/collect_set（列转行）

摘要： Hive中collect相关的函数有collect_list和collect_set。它们都是将分组中的某列转为一个数组返回，不同的是collect_list不去重而collect_set去重。做简单的实验加深理解，创建一张实验用表，存放用户每天点播视频的记录： 1 2 3 4 5 create 阅读全文

posted @ 2019-01-16 11:31 BoomOoO 阅读(607) 评论(0) 推荐(0)

2019年1月11日

Group BY

摘要：一，GROUP BY 执行理解先来看下表1，表名为test：表1 执行如下SQL语句： SELECT name from test GROUP BY name ; 你应该很容易知道运行的结果，没错，就是下表2：表2 可是为了能够更好的理解“group by”多个列“和”聚合函数“的应用，我建议阅读全文

posted @ 2019-01-11 18:21 BoomOoO 阅读(596) 评论(0) 推荐(0)

2019年1月2日

H指数

摘要： H指数是用来综合衡量学者发表论文的数量和质量的指标，若某学者共发表N篇论文，H指数是指存在h 篇论文至少每篇有h 引用量，剩下的N-h篇中，每篇都不超过h引用量计算H指数的方法：1、排序法思路：先将数组排序，我们就可以知道对于某个应用数，有多少文献的引用数大于这个数。对于引用数citations[ 阅读全文

posted @ 2019-01-02 17:36 BoomOoO 阅读(954) 评论(0) 推荐(0)

2018年11月29日

数据倾斜2

摘要：数据倾斜在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。阅读全文

posted @ 2018-11-29 15:00 BoomOoO 阅读(191) 评论(0) 推荐(0)

Hive数据倾斜

摘要：数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候，如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候，某些节点的计算能力比较强或者需要计算的数据比较少，早早执行完了，某些节点计算阅读全文

posted @ 2018-11-29 14:59 BoomOoO 阅读(248) 评论(0) 推荐(0)

2018年11月28日

Map Reduce

摘要： MapReduce客户端程序提交job之后，就会退出，那么如何判断mr程序有没有执行成功呢？1、到yarn的网页上看 8088端口；2、可以让客户端程序不退出，等待mr程序运行完成以后，再退出具体实现，将客户端程序中 job.submit() 换成 job.waitForCompletion(tr 阅读全文

posted @ 2018-11-28 20:52 BoomOoO 阅读(189) 评论(0) 推荐(0)

2018年11月27日

yarn

摘要： Yarn ：分布式计算程序（比如mapreduce程序，或者Spark程序，Stom）的运行调度平台；它本身也是一个分布式系统在Hadoop的 yarn-site.sh 中配置主节点主节点：ResourceManager从节点：NodeManage启动: start-yarn.sh 注意：一定要在配阅读全文

posted @ 2018-11-27 20:39 BoomOoO 阅读(133) 评论(0) 推荐(0)

Mapreduce的api编程

摘要： KEYIN：输入的KEY是maptask所读取到的一行文本的起始偏移量，longVALUEIN：输入的VALUE的类型，输入的VALUE是maptask所读取到的一行文本内容，StringKEYOUT：我们在本逻辑中输出单词做key，StringVALUEOUT：我们在本逻辑中输出１作value，I 阅读全文

posted @ 2018-11-27 20:37 BoomOoO 阅读(248) 评论(0) 推荐(0)

公告