摘要:
使用动态分区表必须配置的参数 : set hive.exec.dynamic.partition =true(默认false),表示开启动态分区功能 set hive.exec.dynamic.partition.mode = nonstrict(默认strict),表示允许所有分区都是动态的,否则 阅读全文
摘要:
import socket #获取本机电脑名 myname = socket.getfqdn(socket.gethostname()) #获取本机ip myaddr = socket.gethostbyname(myname) print(myname) print(myaddr) import 阅读全文
摘要:
from pyspark.sql import SparkSession,Rowfrom pyspark.sql.types import StructField, StructType, StringType, IntegerType, LongType data = [('Alex','male 阅读全文
摘要:
for a in [1,2,3,4,5]: for b in [1,2,3]: if a == b: print("a = b = %s" % a) break # 退出本次for循环,执行第一行的for循环 else: print("a = %s" % a) continue # 继续执行第一行的 阅读全文
摘要:
checkpoint写流程 可以看到checkpoint使用非常简单,设置checkpoint目录,然后调用RDD的checkpoint方法。针对checkpoint的写入流程,主要有以下四个问题: Q1:RDD中的数据是什么时候写入的?是在rdd调用checkpoint方法时候吗? Q2:在做ch 阅读全文
摘要:
# 只能用yeild,如果使用return将返回结果进行字符拆分,原因还不清楚。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveS 阅读全文
摘要:
利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.d 阅读全文
摘要:
中华石衫版本 1——每个shuffleMapTask都会为每个ResultTask创建一份bucket缓存,以及对应的shuffleBlockFile磁盘文件; 2——shuffleMapTask的输出,会作为MapStatus,发送到DAGScheduler的MapOutputTrackerMas 阅读全文
摘要:
1:使用count(*)显示为0,但select操作时发现表有中数据。 因为执行count(1)或count(*)统计行数时,默认会从Hive的元数据库中查询 rowsNum 对应值作为结果返回(至于为什么不自动更新,尚不清楚)。 解决方案: 1——使用ANALYZE命令手动更新表统计信息:ANAL 阅读全文
摘要:
请看廖雪峰。 https://www.liaoxuefeng.com/wiki/1016959663602400/1017261630425888 阅读全文