2019 年 7月随笔档案 - 大葱拌豆腐

Spark连续特征转化成离散特征

摘要：当数据量很大的时候，分类任务通常使用【离散特征+LR】集成【连续特征+xgboost】，如果把连续特征加入到LR、决策树中，容易造成overfit。如果想用上连续型特征，使用集成学习集成多种算法是一种方法，但是一是过程复杂了一些，另外训练过程会非常耗时，在不损失很多特征信息的情况下，可以考虑将连续阅读全文

posted @ 2019-07-25 16:45 大葱拌豆腐阅读(2800) 评论(1) 推荐(1) 编辑

Spark SQL里concat_ws和collect_set的作用

摘要：concat_ws: 用指定的字符连接字符串例如：连接字符串： concat_ws("_", field1, field2)，输出结果将会是：“field1_field2”。数组元素连接： concat_ws("_", [a,b,c])，输出结果将会是："a_b_c"。 collect_set 阅读全文

posted @ 2019-07-20 15:13 大葱拌豆腐阅读(12609) 评论(0) 推荐(0) 编辑

Hive的两种操作模式

摘要：Hive的客户端操作 Hive的客户端操作通过JDBC操作Hive 通过Thrift操作Hive Hive的客户端操作通过JDBC操作Hive 通过Thrift操作Hive Hive的客户端操作通过JDBC操作Hive 通过Thrift操作Hive 首先 Hive 启动远程服务 hive -- 阅读全文

posted @ 2019-07-18 23:48 大葱拌豆腐阅读(766) 评论(0) 推荐(0) 编辑

zp本地包

摘要：https://pan.baidu.com/s/13670pdPNvG_o1coYFnovXA 密码: 3pk3 阅读全文

posted @ 2019-07-11 20:50 大葱拌豆腐阅读(192) 评论(0) 推荐(0) 编辑

Spark无法读取hive 3.x的表数据

摘要：通过Ambari2.7.3安装HDP3.1.0成功之后，通过spark sql去查询hive表的数据发现竟然无法查询 HDP3.0 集成了hive 3.0和 spark 2.3，然而spark却读取不了hive表的数据，准确来说是内表的数据。原因hive 3.0之后默认开启ACID功能，而且新建的阅读全文

posted @ 2019-07-07 22:21 大葱拌豆腐阅读(3063) 评论(2) 推荐(0) 编辑

spark 监控--WebUi、Metrics System（转载）

摘要：转载自：https://www.cnblogs.com/barrenlake/p/4364644.html Spark 监控相关的部分有WebUi 及 Metrics System; WebUi用于展示Spark 资源状态、Metrics System 整合的指标信息。 Ui相关流程 Spark集群阅读全文

posted @ 2019-07-02 17:48 大葱拌豆腐阅读(1610) 评论(0) 推荐(0) 编辑

Spark Streaming Backpressure分析

摘要：1、为什么引入Backpressure 默认情况下，Spark Streaming通过Receiver以生产者生产数据的速率接收数据，计算过程中会出现batch processing time > batch interval的情况，其中batch processing time 为实际计算一个批次阅读全文

posted @ 2019-07-02 11:51 大葱拌豆腐阅读(573) 评论(0) 推荐(0) 编辑

Spark任务调度流程及调度策略分析

摘要：Spark任务调度 TaskScheduler调度入口：（1）CoarseGrainedSchedulerBackend 在启动时会创建DriverEndPoint. 而DriverEndPoint中存在一定时任务，每隔一定时间（spark.scheduler.revive.interval, 默阅读全文

posted @ 2019-07-01 15:44 大葱拌豆腐阅读(2838) 评论(0) 推荐(0) 编辑

Spark资源调度及任务调度

摘要：1、资源分配通过SparkSubmit进行提交应用后，首先会创建Client将应用程序(字节码文件.class)包装成Driver,并将其注册到Master。Master收到Client的注册请求后将其加入待调度队列waitingDrivers，并等待分配执行资源。 1.1 Dirver调度(分阅读全文

posted @ 2019-07-01 15:02 大葱拌豆腐阅读(862) 评论(0) 推荐(0) 编辑

07 2019 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论