07 2019 档案
摘要:当数据量很大的时候,分类任务通常使用【离散特征+LR】集成【连续特征+xgboost】,如果把连续特征加入到LR、决策树中,容易造成overfit。 如果想用上连续型特征,使用集成学习集成多种算法是一种方法,但是一是过程复杂了一些,另外训练过程会非常耗时,在不损失很多特征信息的情况下,可以考虑将连续
阅读全文
摘要:concat_ws: 用指定的字符连接字符串 例如: 连接字符串: concat_ws("_", field1, field2),输出结果将会是:“field1_field2”。 数组元素连接: concat_ws("_", [a,b,c]),输出结果将会是:"a_b_c"。 collect_set
阅读全文
摘要:Hive的客户端操作 Hive的客户端操作 通过JDBC操作Hive 通过Thrift操作Hive Hive的客户端操作 通过JDBC操作Hive 通过Thrift操作Hive Hive的客户端操作 通过JDBC操作Hive 通过Thrift操作Hive 首先 Hive 启动远程服务 hive --
阅读全文
摘要:https://pan.baidu.com/s/13670pdPNvG_o1coYFnovXA 密码: 3pk3
阅读全文
摘要:通过Ambari2.7.3安装HDP3.1.0成功之后,通过spark sql去查询hive表的数据发现竟然无法查询 HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据,准确来说是内表的数据。 原因hive 3.0之后默认开启ACID功能,而且新建的
阅读全文
摘要:转载自:https://www.cnblogs.com/barrenlake/p/4364644.html Spark 监控相关的部分有WebUi 及 Metrics System; WebUi用于展示Spark 资源状态、Metrics System 整合的指标信息。 Ui相关流程 Spark集群
阅读全文
摘要:1、为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次
阅读全文
摘要:Spark任务调度 TaskScheduler调度入口: (1)CoarseGrainedSchedulerBackend 在启动时会创建DriverEndPoint. 而DriverEndPoint中存在一定时任务,每隔一定时间(spark.scheduler.revive.interval, 默
阅读全文
摘要:1、 资源分配 通过SparkSubmit进行提交应用后,首先会创建Client将应用程序(字节码文件.class)包装成Driver,并将其注册到Master。Master收到Client的注册请求后将其加入待调度队列waitingDrivers,并等待分配执行资源。 1.1 Dirver调度(分
阅读全文