muyue123

2020年7月13日

摘要：使用动态分区表必须配置的参数： set hive.exec.dynamic.partition =true（默认false）,表示开启动态分区功能 set hive.exec.dynamic.partition.mode = nonstrict(默认strict),表示允许所有分区都是动态的，否则阅读全文

posted @ 2020-07-13 17:02 muyue123 阅读(841) 评论(0) 推荐(0) 编辑

2020年7月8日

获取当前服务器IP和机器名

摘要： import socket #获取本机电脑名 myname = socket.getfqdn(socket.gethostname()) #获取本机ip myaddr = socket.gethostbyname(myname) print(myname) print(myaddr) import 阅读全文

posted @ 2020-07-08 16:52 muyue123 阅读(331) 评论(0) 推荐(0) 编辑

2020年7月7日

RDD转dataframe

摘要： from pyspark.sql import SparkSession,Rowfrom pyspark.sql.types import StructField, StructType, StringType, IntegerType, LongType data = [('Alex','male 阅读全文

posted @ 2020-07-07 14:33 muyue123 阅读(116) 评论(0) 推荐(0) 编辑

2020年7月6日

跳出双重循环的方法

摘要： for a in [1,2,3,4,5]: for b in [1,2,3]: if a == b: print("a = b = %s" % a) break # 退出本次for循环，执行第一行的for循环 else: print("a = %s" % a) continue # 继续执行第一行的阅读全文

posted @ 2020-07-06 16:27 muyue123 阅读(689) 评论(0) 推荐(0) 编辑

2020年7月3日

cache,persist以及checkpoint

摘要： checkpoint写流程可以看到checkpoint使用非常简单，设置checkpoint目录，然后调用RDD的checkpoint方法。针对checkpoint的写入流程，主要有以下四个问题： Q1：RDD中的数据是什么时候写入的？是在rdd调用checkpoint方法时候吗？ Q2：在做ch 阅读全文

posted @ 2020-07-03 12:42 muyue123 阅读(158) 评论(0) 推荐(0) 编辑

2020年7月1日

mapPartitionsWithIndex查看分区内的前2条数据

摘要： # 只能用yeild，如果使用return将返回结果进行字符拆分，原因还不清楚。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveS 阅读全文

posted @ 2020-07-01 15:40 muyue123 阅读(322) 评论(0) 推荐(0) 编辑

2020年6月30日

通过集合构建RDD或者DataFrame

摘要：利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.d 阅读全文

posted @ 2020-06-30 13:58 muyue123 阅读(141) 评论(0) 推荐(0) 编辑

2020年6月29日

内核源码分析——shuffle

摘要：中华石衫版本 1——每个shuffleMapTask都会为每个ResultTask创建一份bucket缓存，以及对应的shuffleBlockFile磁盘文件； 2——shuffleMapTask的输出，会作为MapStatus，发送到DAGScheduler的MapOutputTrackerMas 阅读全文

posted @ 2020-06-29 20:20 muyue123 阅读(170) 评论(0) 推荐(0) 编辑

问题

摘要： 1:使用count(*)显示为0，但select操作时发现表有中数据。因为执行count(1)或count(*)统计行数时，默认会从Hive的元数据库中查询 rowsNum 对应值作为结果返回(至于为什么不自动更新，尚不清楚)。解决方案： 1——使用ANALYZE命令手动更新表统计信息：ANAL 阅读全文

posted @ 2020-06-29 17:42 muyue123 阅读(104) 评论(0) 推荐(0) 编辑

函数参数

摘要：请看廖雪峰。 https://www.liaoxuefeng.com/wiki/1016959663602400/1017261630425888 阅读全文

posted @ 2020-06-29 16:58 muyue123 阅读(100) 评论(0) 推荐(0) 编辑

公告