2020 年 7月随笔档案 - muyue123

复合数据类型

摘要：-- 数组 -- 有如下数据：战狼2,吴京:吴刚:龙母,2017-08-16 三生三世十里桃花,刘亦菲:痒痒,2017-08-20 普罗米修斯,苍老师:小泽老师:波多老师,2017-09-17 美女与野兽,吴刚:加藤鹰,2017-09-17 -- 建表映射： create table t_movi 阅读全文

posted @ 2020-07-23 17:54 muyue123 阅读(137) 评论(0) 推荐(0) 编辑

广播变量和累加器

摘要：累加器 from pyspark import SparkContext sc = SparkContext("local", "Accumulator app") num = sc.accumulator(10) def f(x): global num num+=x rdd = sc.paral 阅读全文

posted @ 2020-07-22 19:24 muyue123 阅读(104) 评论(0) 推荐(0) 编辑

mysql_基本操作

摘要：1：查看所有的用户 select user,host from mysql.user; 2：查看当前用户 select user(); 3：删除用户 drop drop user XXX;删除已存在的用户，默认删除的是'XXX'@'%'这个用户，如果还有其他的用户如'XXX'@'localhost' 阅读全文

posted @ 2020-07-22 17:13 muyue123 阅读(101) 评论(0) 推荐(0) 编辑

字符串和时间

摘要：一、unix_timestamp 函数用法1、unix_timestamp() 返回当前时间戳。另外，current_timestamp() 也有同样作用。 select unix_timestamp() #输出：1530230400 2、unix_timestamp(string date) 返回阅读全文

posted @ 2020-07-16 16:46 muyue123 阅读(129) 评论(0) 推荐(0) 编辑

调用shell命令

摘要：system() 其中最后一个0是这个命令的返回值，为0表示命令执行成功。使用system无法将执行的结果保存起来。 popen() 获取命令执行的结果，但是没有命令的执行状态，这样可以将获取的结果保存起来放到list中。阅读全文

posted @ 2020-07-16 15:54 muyue123 阅读(139) 评论(0) 推荐(0) 编辑

s3操作

摘要：保存成json格式，并压缩 spark.range(20).repartition(1).write.mode('overwrite').json(path='out/20200715',compression='gzip') 阅读全文

posted @ 2020-07-16 15:43 muyue123 阅读(157) 评论(0) 推荐(0) 编辑

udf

摘要：from pyspark.sql import SparkSession from pyspark.sql.types import StructField, StructType, StringType, IntegerType, LongType,ArrayType from pyspark.s 阅读全文

posted @ 2020-07-14 14:21 muyue123 阅读(332) 评论(0) 推荐(0) 编辑

动态分区

摘要：使用动态分区表必须配置的参数： set hive.exec.dynamic.partition =true（默认false）,表示开启动态分区功能 set hive.exec.dynamic.partition.mode = nonstrict(默认strict),表示允许所有分区都是动态的，否则阅读全文

posted @ 2020-07-13 17:02 muyue123 阅读(842) 评论(0) 推荐(0) 编辑

获取当前服务器IP和机器名

摘要：import socket #获取本机电脑名 myname = socket.getfqdn(socket.gethostname()) #获取本机ip myaddr = socket.gethostbyname(myname) print(myname) print(myaddr) import 阅读全文

posted @ 2020-07-08 16:52 muyue123 阅读(332) 评论(0) 推荐(0) 编辑

RDD转dataframe

摘要：from pyspark.sql import SparkSession,Rowfrom pyspark.sql.types import StructField, StructType, StringType, IntegerType, LongType data = [('Alex','male 阅读全文

posted @ 2020-07-07 14:33 muyue123 阅读(117) 评论(0) 推荐(0) 编辑

跳出双重循环的方法

摘要：for a in [1,2,3,4,5]: for b in [1,2,3]: if a == b: print("a = b = %s" % a) break # 退出本次for循环，执行第一行的for循环 else: print("a = %s" % a) continue # 继续执行第一行的阅读全文

posted @ 2020-07-06 16:27 muyue123 阅读(689) 评论(0) 推荐(0) 编辑

cache,persist以及checkpoint

摘要：checkpoint写流程可以看到checkpoint使用非常简单，设置checkpoint目录，然后调用RDD的checkpoint方法。针对checkpoint的写入流程，主要有以下四个问题： Q1：RDD中的数据是什么时候写入的？是在rdd调用checkpoint方法时候吗？ Q2：在做ch 阅读全文

posted @ 2020-07-03 12:42 muyue123 阅读(158) 评论(0) 推荐(0) 编辑

mapPartitionsWithIndex查看分区内的前2条数据

摘要：# 只能用yeild，如果使用return将返回结果进行字符拆分，原因还不清楚。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveS 阅读全文

posted @ 2020-07-01 15:40 muyue123 阅读(322) 评论(0) 推荐(0) 编辑

muyue123

07 2020 档案

公告