摘要:
mysqlToHiveORC-作业流 集群模式、使用GenerateTableFetch进行分流SQL语句 ExecuteSQLRecord执行SQL语句 ConverAvroToORC将avro格式转换为ORC格式 PutHDFS写入hdfs(写入的路径指定到hive表load的默认路径下) 一、 阅读全文
摘要:
一、数据序列化 如果使用一种对象序列化慢、占用字节多的序列化格式,就会严重降低计算效率。 在spark中有三个方面涉及序列化: 1.在算子函数中使用到外部变量时,该变量会被序列化后进行网络传输。 2.将自定义的类型作为RDD的泛型类型时,所有自定义类型对象都会进行序列化,因此在这种情况下,也要求自定 阅读全文
摘要:
1 while true 2 do 3 #判断进程是否存在 4 pid=`ps -ef |grep "gbt32960-server-1.0-SNAPSHOT.jar"|grep -v grep` 5 if [ $? -ne 0 ];then 6 cd /opt/cdh/job/LOT 7 echo 阅读全文