摘要: 2.聚合函数 返回值类型 样式 描述 BIGINT Count(*) J计算总函数,包括含有NULL值的行 BIGINT count(expr) 计算expr表达式的值非NULL的行数 BIGINT count(DISTINCT expr) 计算expr表达式的值去重后非NULL行数 DOUBLE 阅读全文
posted @ 2020-09-24 23:47 二黑诶 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 1.创建 orc 格式 hive表 CREATE TABLE IF NOT EXISTS order_user_all ( renter_id int COMMENT '用户id', order_q int COMMENT '近90天订单数',pay_normal_all double COMMEN 阅读全文
posted @ 2020-09-24 23:46 二黑诶 阅读(401) 评论(0) 推荐(0) 编辑
摘要: mysqlToHiveORC-作业流 集群模式、使用GenerateTableFetch进行分流SQL语句 ExecuteSQLRecord执行SQL语句 ConverAvroToORC将avro格式转换为ORC格式 PutHDFS写入hdfs(写入的路径指定到hive表load的默认路径下) 一、 阅读全文
posted @ 2020-09-24 23:43 二黑诶 阅读(809) 评论(0) 推荐(0) 编辑
摘要: 一、数据序列化 如果使用一种对象序列化慢、占用字节多的序列化格式,就会严重降低计算效率。 在spark中有三个方面涉及序列化: 1.在算子函数中使用到外部变量时,该变量会被序列化后进行网络传输。 2.将自定义的类型作为RDD的泛型类型时,所有自定义类型对象都会进行序列化,因此在这种情况下,也要求自定 阅读全文
posted @ 2020-09-24 23:41 二黑诶 阅读(487) 评论(0) 推荐(0) 编辑
摘要: 1 while true 2 do 3 #判断进程是否存在 4 pid=`ps -ef |grep "gbt32960-server-1.0-SNAPSHOT.jar"|grep -v grep` 5 if [ $? -ne 0 ];then 6 cd /opt/cdh/job/LOT 7 echo 阅读全文
posted @ 2020-09-24 23:39 二黑诶 阅读(398) 评论(0) 推荐(0) 编辑