随笔分类 - hadoop
摘要:卧槽草草 来源于其它博客: 貌似我只知道group by key带来的倾斜 hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案 1、join的key值发生
阅读全文
摘要:来源知乎 计算模型:hadoop-MapReduce,Spark-DAG(有向无环图)评注:经常有人说Spark就是内存版的MapReduce,实际上不是的。Spark使用的DAG计算模型可以有效的减少Map和Reduce人物之间传递的数据,尤其适合反复迭代的机器学习场景。而Hadoop则更擅长批处
阅读全文
摘要:String string是不可变的,要变用stringbuilder,还有字符串是双引号 Scala函数 按名称传递参数的方式 使用“按名称传递参数”方式的优点是:1.减少不必要的计算; 2.减少异常 在代码中,如果定义函数的时候,传入参数不是传入的值,而是传入的参数名称(如代码中使用t: =>
阅读全文