03 2020 档案
摘要:随机森林算法: 随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候决定测试样本的最终类别 在Bagging策略的基础上进行修改后的一种算法 从样本集中用Bootstrap采样选出n个样本; 从所有属性中随机选择K个属性,选择出最佳分割属性作为节点创建决策树; 重复以上两步m次,
阅读全文
摘要:spark性能优化点 1. 分配更多的资源 分配更多的资源: 它是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的, 基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调 优的时候,首先第一步,就是要来调节最优的资
阅读全文
摘要:Spark核心组件 Driver Spark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责: 将用户程序转化为作业(job); 在Executor之间调度任务(task); 跟踪Executor的执行情况; 通过UI展示查询运行
阅读全文

浙公网安备 33010602011771号