随笔分类 - hadoop

hive数据倾斜问题

摘要：卧槽草草来源于其它博客：貌似我只知道group by key带来的倾斜 hive在跑数据时经常会出现数据倾斜的情况，使的作业经常reduce完成在99%后一直卡住，最后的１%花了几个小时都没跑完，这种情况就很可能是数据倾斜的原因，解决方法要根据具体情况来选择具体的方案１、join的key值发生阅读全文

posted @ 2017-08-15 18:23 simple_wxl 阅读(2407) 评论(0) 推荐(0) 编辑

spark和hadoop比较

摘要：来源知乎计算模型：hadoop-MapReduce，Spark-DAG（有向无环图）评注：经常有人说Spark就是内存版的MapReduce，实际上不是的。Spark使用的DAG计算模型可以有效的减少Map和Reduce人物之间传递的数据，尤其适合反复迭代的机器学习场景。而Hadoop则更擅长批处阅读全文

posted @ 2017-08-02 20:24 simple_wxl 阅读(314) 评论(0) 推荐(0) 编辑

Scala学习

摘要：String string是不可变的，要变用stringbuilder,还有字符串是双引号 Scala函数按名称传递参数的方式使用“按名称传递参数”方式的优点是：1.减少不必要的计算； 2.减少异常在代码中，如果定义函数的时候，传入参数不是传入的值，而是传入的参数名称（如代码中使用t: => 阅读全文

posted @ 2017-06-17 10:39 simple_wxl 阅读(228) 评论(0) 推荐(0) 编辑

公告

昵称： simple_wxl
园龄： 8年7个月
粉丝： 55
关注： 0

+加关注

2025年1月

日

一

二

三

四

五

六