摘要: 对于/user/root/.sparkStaging下文件,是spark任务依赖文件,可以将jar包上传到指定目录下,避免或减少了jar包的重复上传,进而减少任务的等待时间。 可以在spark的配置文件spark-defaults.conf配置如下内容: spark.yarn.archive=hdf 阅读全文
posted @ 2020-08-31 11:54 muyue123 阅读(2105) 评论(0) 推荐(0) 编辑
摘要: yarn logs -applicationId application_1598508303322_0300 阅读全文
posted @ 2020-08-31 11:30 muyue123 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 开启多行查询模式: clickhouse-client -m 更改表名: rename table t1 to t2 修改列信息: alter table scott.emp modify column hiredate datetime; limit by 语句: limit 10 by clas 阅读全文
posted @ 2020-08-13 20:30 muyue123 阅读(102) 评论(0) 推荐(0) 编辑
摘要: -- 数组 -- 有如下数据: 战狼2,吴京:吴刚:龙母,2017-08-16 三生三世十里桃花,刘亦菲:痒痒,2017-08-20 普罗米修斯,苍老师:小泽老师:波多老师,2017-09-17 美女与野兽,吴刚:加藤鹰,2017-09-17 -- 建表映射: create table t_movi 阅读全文
posted @ 2020-07-23 17:54 muyue123 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 累加器 from pyspark import SparkContext sc = SparkContext("local", "Accumulator app") num = sc.accumulator(10) def f(x): global num num+=x rdd = sc.paral 阅读全文
posted @ 2020-07-22 19:24 muyue123 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 1:查看所有的用户 select user,host from mysql.user; 2:查看当前用户 select user(); 3:删除用户 drop drop user XXX;删除已存在的用户,默认删除的是'XXX'@'%'这个用户,如果还有其他的用户如'XXX'@'localhost' 阅读全文
posted @ 2020-07-22 17:13 muyue123 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 一、unix_timestamp 函数用法1、unix_timestamp() 返回当前时间戳。另外,current_timestamp() 也有同样作用。 select unix_timestamp() #输出:1530230400 2、unix_timestamp(string date) 返回 阅读全文
posted @ 2020-07-16 16:46 muyue123 阅读(126) 评论(0) 推荐(0) 编辑
摘要: system() 其中最后一个0是这个命令的返回值,为0表示命令执行成功。使用system无法将执行的结果保存起来。 popen() 获取命令执行的结果,但是没有命令的执行状态,这样可以将获取的结果保存起来放到list中。 阅读全文
posted @ 2020-07-16 15:54 muyue123 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 保存成json格式,并压缩 spark.range(20).repartition(1).write.mode('overwrite').json(path='out/20200715',compression='gzip') 阅读全文
posted @ 2020-07-16 15:43 muyue123 阅读(156) 评论(0) 推荐(0) 编辑
摘要: from pyspark.sql import SparkSession from pyspark.sql.types import StructField, StructType, StringType, IntegerType, LongType,ArrayType from pyspark.s 阅读全文
posted @ 2020-07-14 14:21 muyue123 阅读(325) 评论(0) 推荐(0) 编辑