muyue123

2020年8月31日

摘要：对于/user/root/.sparkStaging下文件，是spark任务依赖文件，可以将jar包上传到指定目录下，避免或减少了jar包的重复上传，进而减少任务的等待时间。可以在spark的配置文件spark-defaults.conf配置如下内容： spark.yarn.archive=hdf 阅读全文

posted @ 2020-08-31 11:54 muyue123 阅读(2170) 评论(0) 推荐(0) 编辑

查看日志

摘要： yarn logs -applicationId application_1598508303322_0300 阅读全文

posted @ 2020-08-31 11:30 muyue123 阅读(91) 评论(0) 推荐(0) 编辑

2020年8月13日

基本操作

摘要：开启多行查询模式： clickhouse-client -m 更改表名： rename table t1 to t2 修改列信息： alter table scott.emp modify column hiredate datetime; limit by 语句: limit 10 by clas 阅读全文

posted @ 2020-08-13 20:30 muyue123 阅读(103) 评论(0) 推荐(0) 编辑

2020年7月23日

复合数据类型

摘要： -- 数组 -- 有如下数据：战狼2,吴京:吴刚:龙母,2017-08-16 三生三世十里桃花,刘亦菲:痒痒,2017-08-20 普罗米修斯,苍老师:小泽老师:波多老师,2017-09-17 美女与野兽,吴刚:加藤鹰,2017-09-17 -- 建表映射： create table t_movi 阅读全文

posted @ 2020-07-23 17:54 muyue123 阅读(137) 评论(0) 推荐(0) 编辑

2020年7月22日

广播变量和累加器

摘要：累加器 from pyspark import SparkContext sc = SparkContext("local", "Accumulator app") num = sc.accumulator(10) def f(x): global num num+=x rdd = sc.paral 阅读全文

posted @ 2020-07-22 19:24 muyue123 阅读(104) 评论(0) 推荐(0) 编辑

mysql_基本操作

摘要： 1：查看所有的用户 select user,host from mysql.user; 2：查看当前用户 select user(); 3：删除用户 drop drop user XXX;删除已存在的用户，默认删除的是'XXX'@'%'这个用户，如果还有其他的用户如'XXX'@'localhost' 阅读全文

posted @ 2020-07-22 17:13 muyue123 阅读(101) 评论(0) 推荐(0) 编辑

2020年7月16日

字符串和时间

摘要：一、unix_timestamp 函数用法1、unix_timestamp() 返回当前时间戳。另外，current_timestamp() 也有同样作用。 select unix_timestamp() #输出：1530230400 2、unix_timestamp(string date) 返回阅读全文

posted @ 2020-07-16 16:46 muyue123 阅读(127) 评论(0) 推荐(0) 编辑

调用shell命令

摘要： system() 其中最后一个0是这个命令的返回值，为0表示命令执行成功。使用system无法将执行的结果保存起来。 popen() 获取命令执行的结果，但是没有命令的执行状态，这样可以将获取的结果保存起来放到list中。阅读全文

posted @ 2020-07-16 15:54 muyue123 阅读(138) 评论(0) 推荐(0) 编辑

s3操作

摘要：保存成json格式，并压缩 spark.range(20).repartition(1).write.mode('overwrite').json(path='out/20200715',compression='gzip') 阅读全文

posted @ 2020-07-16 15:43 muyue123 阅读(157) 评论(0) 推荐(0) 编辑

2020年7月14日

udf

摘要： from pyspark.sql import SparkSession from pyspark.sql.types import StructField, StructType, StringType, IntegerType, LongType,ArrayType from pyspark.s 阅读全文

posted @ 2020-07-14 14:21 muyue123 阅读(332) 评论(0) 推荐(0) 编辑

公告