摘要: 使用动态分区表必须配置的参数 : set hive.exec.dynamic.partition =true(默认false),表示开启动态分区功能 set hive.exec.dynamic.partition.mode = nonstrict(默认strict),表示允许所有分区都是动态的,否则 阅读全文
posted @ 2020-07-13 17:02 muyue123 阅读(841) 评论(0) 推荐(0) 编辑
摘要: import socket #获取本机电脑名 myname = socket.getfqdn(socket.gethostname()) #获取本机ip myaddr = socket.gethostbyname(myname) print(myname) print(myaddr) import 阅读全文
posted @ 2020-07-08 16:52 muyue123 阅读(331) 评论(0) 推荐(0) 编辑
摘要: from pyspark.sql import SparkSession,Rowfrom pyspark.sql.types import StructField, StructType, StringType, IntegerType, LongType data = [('Alex','male 阅读全文
posted @ 2020-07-07 14:33 muyue123 阅读(116) 评论(0) 推荐(0) 编辑
摘要: for a in [1,2,3,4,5]: for b in [1,2,3]: if a == b: print("a = b = %s" % a) break # 退出本次for循环,执行第一行的for循环 else: print("a = %s" % a) continue # 继续执行第一行的 阅读全文
posted @ 2020-07-06 16:27 muyue123 阅读(689) 评论(0) 推荐(0) 编辑
摘要: checkpoint写流程 可以看到checkpoint使用非常简单,设置checkpoint目录,然后调用RDD的checkpoint方法。针对checkpoint的写入流程,主要有以下四个问题: Q1:RDD中的数据是什么时候写入的?是在rdd调用checkpoint方法时候吗? Q2:在做ch 阅读全文
posted @ 2020-07-03 12:42 muyue123 阅读(158) 评论(0) 推荐(0) 编辑
摘要: # 只能用yeild,如果使用return将返回结果进行字符拆分,原因还不清楚。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveS 阅读全文
posted @ 2020-07-01 15:40 muyue123 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.d 阅读全文
posted @ 2020-06-30 13:58 muyue123 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 中华石衫版本 1——每个shuffleMapTask都会为每个ResultTask创建一份bucket缓存,以及对应的shuffleBlockFile磁盘文件; 2——shuffleMapTask的输出,会作为MapStatus,发送到DAGScheduler的MapOutputTrackerMas 阅读全文
posted @ 2020-06-29 20:20 muyue123 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 1:使用count(*)显示为0,但select操作时发现表有中数据。 因为执行count(1)或count(*)统计行数时,默认会从Hive的元数据库中查询 rowsNum 对应值作为结果返回(至于为什么不自动更新,尚不清楚)。 解决方案: 1——使用ANALYZE命令手动更新表统计信息:ANAL 阅读全文
posted @ 2020-06-29 17:42 muyue123 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 请看廖雪峰。 https://www.liaoxuefeng.com/wiki/1016959663602400/1017261630425888 阅读全文
posted @ 2020-06-29 16:58 muyue123 阅读(100) 评论(0) 推荐(0) 编辑