2020 年 9月 24 日随笔档案 - 二黑诶

2020年9月24日

摘要： 2.聚合函数返回值类型样式描述 BIGINT Count(*) J计算总函数，包括含有NULL值的行 BIGINT count(expr) 计算expr表达式的值非NULL的行数 BIGINT count(DISTINCT expr）计算expr表达式的值去重后非NULL行数 DOUBLE 阅读全文

posted @ 2020-09-24 23:47 二黑诶阅读(234) 评论(0) 推荐(0) 编辑

小记--------hive sql函数及hive 命令行简单操作-1

摘要： 1.创建 orc 格式 hive表 CREATE TABLE IF NOT EXISTS order_user_all ( renter_id int COMMENT '用户id', order_q int COMMENT '近90天订单数',pay_normal_all double COMMEN 阅读全文

posted @ 2020-09-24 23:46 二黑诶阅读(401) 评论(0) 推荐(0) 编辑

小记--------nifi通过作业流模板添加模板-修改属性-启动

摘要： mysqlToHiveORC-作业流集群模式、使用GenerateTableFetch进行分流SQL语句 ExecuteSQLRecord执行SQL语句 ConverAvroToORC将avro格式转换为ORC格式 PutHDFS写入hdfs（写入的路径指定到hive表load的默认路径下）一、阅读全文

posted @ 2020-09-24 23:43 二黑诶阅读(809) 评论(0) 推荐(0) 编辑

小记--------spark streaming调优

摘要：一、数据序列化如果使用一种对象序列化慢、占用字节多的序列化格式，就会严重降低计算效率。在spark中有三个方面涉及序列化： 1.在算子函数中使用到外部变量时，该变量会被序列化后进行网络传输。 2.将自定义的类型作为RDD的泛型类型时，所有自定义类型对象都会进行序列化，因此在这种情况下，也要求自定阅读全文

posted @ 2020-09-24 23:41 二黑诶阅读(487) 评论(0) 推荐(0) 编辑

小记--------Linux脚本监控进程是否存在，不存在重启

摘要： 1 while true 2 do 3 #判断进程是否存在 4 pid=`ps -ef |grep "gbt32960-server-1.0-SNAPSHOT.jar"|grep -v grep` 5 if [ $? -ne 0 ];then 6 cd /opt/cdh/job/LOT 7 echo 阅读全文

posted @ 2020-09-24 23:39 二黑诶阅读(398) 评论(0) 推荐(0) 编辑

于二黑

公告