随笔分类 -  hadoop

摘要:卧槽草草 来源于其它博客: 貌似我只知道group by key带来的倾斜 hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案 1、join的key值发生 阅读全文
posted @ 2017-08-15 18:23 simple_wxl 阅读(2407) 评论(0) 推荐(0) 编辑
摘要:来源知乎 计算模型:hadoop-MapReduce,Spark-DAG(有向无环图)评注:经常有人说Spark就是内存版的MapReduce,实际上不是的。Spark使用的DAG计算模型可以有效的减少Map和Reduce人物之间传递的数据,尤其适合反复迭代的机器学习场景。而Hadoop则更擅长批处 阅读全文
posted @ 2017-08-02 20:24 simple_wxl 阅读(314) 评论(0) 推荐(0) 编辑
摘要:String string是不可变的,要变用stringbuilder,还有字符串是双引号 Scala函数 按名称传递参数的方式 使用“按名称传递参数”方式的优点是:1.减少不必要的计算; 2.减少异常 在代码中,如果定义函数的时候,传入参数不是传入的值,而是传入的参数名称(如代码中使用t: => 阅读全文
posted @ 2017-06-17 10:39 simple_wxl 阅读(228) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示