摘要:
根据table2的表结构,创建tables1 根据table2的表结构,创建tables1,同时将table2的数据插入table1 根据table2的表结构,创建tables1,重命名列,并复制数据 阅读全文
摘要:
目前Hadoop有三种比较流行的资源调度器:FIFO 、Capacity Scheduler、Fair Scheduler。目前Hadoop2.7默认使用的是Capacity Scheduler容量调度器。 一、FIFO(先入先出调度器) Hadoop1.x使用的默认调度器就是FIFO。FIFO采用 阅读全文
摘要:
当数据量很大的时候,分类任务通常使用【离散特征+LR】集成【连续特征+xgboost】,如果把连续特征加入到LR、决策树中,容易造成overfit。 如果想用上连续型特征,使用集成学习集成多种算法是一种方法,但是一是过程复杂了一些,另外训练过程会非常耗时,在不损失很多特征信息的情况下,可以考虑将连续 阅读全文
摘要:
concat_ws: 用指定的字符连接字符串 例如: 连接字符串: concat_ws("_", field1, field2),输出结果将会是:“field1_field2”。 数组元素连接: concat_ws("_", [a,b,c]),输出结果将会是:"a_b_c"。 collect_set 阅读全文
摘要:
Hive的客户端操作 Hive的客户端操作 通过JDBC操作Hive 通过Thrift操作Hive Hive的客户端操作 通过JDBC操作Hive 通过Thrift操作Hive Hive的客户端操作 通过JDBC操作Hive 通过Thrift操作Hive 首先 Hive 启动远程服务 hive -- 阅读全文
摘要:
https://pan.baidu.com/s/13670pdPNvG_o1coYFnovXA 密码: 3pk3 阅读全文
摘要:
通过Ambari2.7.3安装HDP3.1.0成功之后,通过spark sql去查询hive表的数据发现竟然无法查询 HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据,准确来说是内表的数据。 原因hive 3.0之后默认开启ACID功能,而且新建的 阅读全文
摘要:
转载自:https://www.cnblogs.com/barrenlake/p/4364644.html Spark 监控相关的部分有WebUi 及 Metrics System; WebUi用于展示Spark 资源状态、Metrics System 整合的指标信息。 Ui相关流程 Spark集群 阅读全文
摘要:
1、为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次 阅读全文
摘要:
Spark任务调度 TaskScheduler调度入口: (1)CoarseGrainedSchedulerBackend 在启动时会创建DriverEndPoint. 而DriverEndPoint中存在一定时任务,每隔一定时间(spark.scheduler.revive.interval, 默 阅读全文