我曾道貌岸然,却经你似水流年~
03 2020 档案
摘要:
一、数据倾斜原因 常见表现:在hive中 map阶段早就跑完了,reduce阶段一直卡在99%。很大情况是发生了数据倾斜,整个任务在等某个节点跑完。 在spark中大部分的task执行的特别快,剩下的一些task执行的特别慢,要几分钟或几十分钟才执行完一个task Hive中大表join的时候,容易
阅读全文

摘要:
一、随机森林 1.概念:随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候决定测试样本的最终类别 是在Bagging策略的基础上进行修改后的一种算法(Bagging核心思想:采用有放回的采样规则,从m个样本点中抽取n个数据构建一个新的训练数据集,用这个数据集来训练模型,重复上述
阅读全文

摘要:
一、WHY? spark 应用程序虽然已经有代码生成器,执行优化器等内置工具,能让你的代码在执行时更快,但是它只是一个工具、框架,在这里需要你了解spark工作的原理,知道如何调节spark的内部参数,以达到性能最优。 在做 spark 应用程序的优化的时候,从下面几个点出发就够了: 为什么:因为你
阅读全文
