摘要:
因为新换了Windows 10 电脑,需要在新电脑重新安装所有的软件,包括mongodb 下载文件:首先在mongodb的官方网站上下载最新版本的mongodb安装程序,https://www.mongodb.com/,滚动网页至Try MongoDB for free 选择Community Se 阅读全文
摘要:
引用网上一段话: \b 是正则表达式规定的一个特殊代码(好吧,某些人叫它元字符,metacharacter),代表着单词的开头或结尾,也就是单词的分界处。虽然通常英文的单词是由空格,标点符号或者换行来分隔的,但是 \b 并不匹配这些单词分隔字符中的任何一个,它只匹配一个位置。 如果需要更精确的说法, 阅读全文
摘要:
Hive中collect相关的函数有collect_list和collect_set。 它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重。 做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录: 1 2 3 4 5 create 阅读全文
摘要:
一,GROUP BY 执行理解 先来看下表1,表名为test: 表1 执行如下SQL语句: SELECT name from test GROUP BY name ; 你应该很容易知道运行的结果,没错,就是下表2: 表2 可是为了能够更好的理解“group by”多个列“和”聚合函数“的应用,我建议 阅读全文
摘要:
H指数是用来综合衡量学者发表论文的数量和质量的指标,若某学者共发表N篇论文,H指数是指存在h 篇论文至少每篇有h 引用量,剩下的N-h篇中,每篇都不超过h引用量 计算H指数的方法:1、排序法思路:先将数组排序,我们就可以知道对于某个应用数,有多少文献的引用数大于这个数。对于引用数citations[ 阅读全文
摘要:
数据倾斜 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。 阅读全文
摘要:
数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算 阅读全文
摘要:
MapReduce客户端程序提交job之后,就会退出,那么如何判断mr程序有没有执行成功呢?1、到yarn的网页上看 8088端口;2、可以让客户端程序不退出,等待mr程序运行完成以后,再退出 具体实现,将客户端程序中 job.submit() 换成 job.waitForCompletion(tr 阅读全文
摘要:
Yarn :分布式计算程序(比如mapreduce程序,或者Spark程序,Stom)的运行调度平台;它本身也是一个分布式系统在Hadoop的 yarn-site.sh 中配置主节点主节点:ResourceManager从节点:NodeManage启动: start-yarn.sh 注意:一定要在配 阅读全文
摘要:
KEYIN:输入的KEY是maptask所读取到的一行文本的起始偏移量,longVALUEIN:输入的VALUE的类型,输入的VALUE是maptask所读取到的一行文本内容,StringKEYOUT:我们在本逻辑中输出单词做key,StringVALUEOUT:我们在本逻辑中输出1作value,I 阅读全文