07 2020 档案

摘要:-- 数组 -- 有如下数据: 战狼2,吴京:吴刚:龙母,2017-08-16 三生三世十里桃花,刘亦菲:痒痒,2017-08-20 普罗米修斯,苍老师:小泽老师:波多老师,2017-09-17 美女与野兽,吴刚:加藤鹰,2017-09-17 -- 建表映射: create table t_movi 阅读全文
posted @ 2020-07-23 17:54 muyue123 阅读(137) 评论(0) 推荐(0) 编辑
摘要:累加器 from pyspark import SparkContext sc = SparkContext("local", "Accumulator app") num = sc.accumulator(10) def f(x): global num num+=x rdd = sc.paral 阅读全文
posted @ 2020-07-22 19:24 muyue123 阅读(104) 评论(0) 推荐(0) 编辑
摘要:1:查看所有的用户 select user,host from mysql.user; 2:查看当前用户 select user(); 3:删除用户 drop drop user XXX;删除已存在的用户,默认删除的是'XXX'@'%'这个用户,如果还有其他的用户如'XXX'@'localhost' 阅读全文
posted @ 2020-07-22 17:13 muyue123 阅读(101) 评论(0) 推荐(0) 编辑
摘要:一、unix_timestamp 函数用法1、unix_timestamp() 返回当前时间戳。另外,current_timestamp() 也有同样作用。 select unix_timestamp() #输出:1530230400 2、unix_timestamp(string date) 返回 阅读全文
posted @ 2020-07-16 16:46 muyue123 阅读(129) 评论(0) 推荐(0) 编辑
摘要:system() 其中最后一个0是这个命令的返回值,为0表示命令执行成功。使用system无法将执行的结果保存起来。 popen() 获取命令执行的结果,但是没有命令的执行状态,这样可以将获取的结果保存起来放到list中。 阅读全文
posted @ 2020-07-16 15:54 muyue123 阅读(139) 评论(0) 推荐(0) 编辑
摘要:保存成json格式,并压缩 spark.range(20).repartition(1).write.mode('overwrite').json(path='out/20200715',compression='gzip') 阅读全文
posted @ 2020-07-16 15:43 muyue123 阅读(157) 评论(0) 推荐(0) 编辑
摘要:from pyspark.sql import SparkSession from pyspark.sql.types import StructField, StructType, StringType, IntegerType, LongType,ArrayType from pyspark.s 阅读全文
posted @ 2020-07-14 14:21 muyue123 阅读(332) 评论(0) 推荐(0) 编辑
摘要:使用动态分区表必须配置的参数 : set hive.exec.dynamic.partition =true(默认false),表示开启动态分区功能 set hive.exec.dynamic.partition.mode = nonstrict(默认strict),表示允许所有分区都是动态的,否则 阅读全文
posted @ 2020-07-13 17:02 muyue123 阅读(842) 评论(0) 推荐(0) 编辑
摘要:import socket #获取本机电脑名 myname = socket.getfqdn(socket.gethostname()) #获取本机ip myaddr = socket.gethostbyname(myname) print(myname) print(myaddr) import 阅读全文
posted @ 2020-07-08 16:52 muyue123 阅读(332) 评论(0) 推荐(0) 编辑
摘要:from pyspark.sql import SparkSession,Rowfrom pyspark.sql.types import StructField, StructType, StringType, IntegerType, LongType data = [('Alex','male 阅读全文
posted @ 2020-07-07 14:33 muyue123 阅读(117) 评论(0) 推荐(0) 编辑
摘要:for a in [1,2,3,4,5]: for b in [1,2,3]: if a == b: print("a = b = %s" % a) break # 退出本次for循环,执行第一行的for循环 else: print("a = %s" % a) continue # 继续执行第一行的 阅读全文
posted @ 2020-07-06 16:27 muyue123 阅读(689) 评论(0) 推荐(0) 编辑
摘要:checkpoint写流程 可以看到checkpoint使用非常简单,设置checkpoint目录,然后调用RDD的checkpoint方法。针对checkpoint的写入流程,主要有以下四个问题: Q1:RDD中的数据是什么时候写入的?是在rdd调用checkpoint方法时候吗? Q2:在做ch 阅读全文
posted @ 2020-07-03 12:42 muyue123 阅读(158) 评论(0) 推荐(0) 编辑
摘要:# 只能用yeild,如果使用return将返回结果进行字符拆分,原因还不清楚。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveS 阅读全文
posted @ 2020-07-01 15:40 muyue123 阅读(322) 评论(0) 推荐(0) 编辑