Mr·Li博客

Happiness First!

无所谓,我会出手

  • 我曾道貌岸然,却经你似水流年~

    03 2020 档案

    摘要:开发性能调优之数据倾斜调优一、数据倾斜原因 常见表现:在hive中 map阶段早就跑完了,reduce阶段一直卡在99%。很大情况是发生了数据倾斜,整个任务在等某个节点跑完。 在spark中大部分的task执行的特别快,剩下的一些task执行的特别慢,要几分钟或几十分钟才执行完一个task Hive中大表join的时候,容易 阅读全文
    posted @ 2020-03-22 20:32 Mr·Li程序员 阅读(386) 评论(0) 推荐(0) 编辑
    摘要:随机森林和AdaBoost的区别一、随机森林 1.概念:随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候决定测试样本的最终类别 是在Bagging策略的基础上进行修改后的一种算法(Bagging核心思想:采用有放回的采样规则,从m个样本点中抽取n个数据构建一个新的训练数据集,用这个数据集来训练模型,重复上述 阅读全文
    posted @ 2020-03-15 17:58 Mr·Li程序员 阅读(533) 评论(0) 推荐(0) 编辑
    摘要:spark性能优化一、WHY? spark 应用程序虽然已经有代码生成器,执行优化器等内置工具,能让你的代码在执行时更快,但是它只是一个工具、框架,在这里需要你了解spark工作的原理,知道如何调节spark的内部参数,以达到性能最优。 在做 spark 应用程序的优化的时候,从下面几个点出发就够了: 为什么:因为你 阅读全文
    posted @ 2020-03-04 19:16 Mr·Li程序员 阅读(442) 评论(0) 推荐(0) 编辑

    点击右上角即可分享
    微信分享提示