我曾道貌岸然，却经你似水流年~

03 2020 档案

摘要：

一、数据倾斜原因常见表现：在hive中 map阶段早就跑完了，reduce阶段一直卡在99%。很大情况是发生了数据倾斜，整个任务在等某个节点跑完。在spark中大部分的task执行的特别快，剩下的一些task执行的特别慢，要几分钟或几十分钟才执行完一个task Hive中大表join的时候，容易阅读全文

posted @ 2020-03-22 20:32 Mr·Li程序员阅读(386) 评论(0) 推荐(0) 编辑

随机森林和AdaBoost的区别

摘要：

一、随机森林 1.概念：随机森林利用随机的方式将许多决策树组合成一个森林，每个决策树在分类的时候决定测试样本的最终类别是在Bagging策略的基础上进行修改后的一种算法（Bagging核心思想：采用有放回的采样规则，从m个样本点中抽取n个数据构建一个新的训练数据集，用这个数据集来训练模型，重复上述阅读全文

posted @ 2020-03-15 17:58 Mr·Li程序员阅读(533) 评论(0) 推荐(0) 编辑

spark性能优化

摘要：

一、WHY? spark 应用程序虽然已经有代码生成器，执行优化器等内置工具，能让你的代码在执行时更快，但是它只是一个工具、框架，在这里需要你了解spark工作的原理，知道如何调节spark的内部参数，以达到性能最优。在做 spark 应用程序的优化的时候，从下面几个点出发就够了：为什么：因为你阅读全文

posted @ 2020-03-04 19:16 Mr·Li程序员阅读(442) 评论(0) 推荐(0) 编辑

公告

我的的第2753天12小时23分51秒

昵称： Mr·Li程序员
园龄： 5年
粉丝： 3
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

Happiness First！

03 2020 档案

公告

搜索

常用链接

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论