2020 年 6月随笔档案 - muyue123

通过集合构建RDD或者DataFrame

摘要：利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.d 阅读全文

posted @ 2020-06-30 13:58 muyue123 阅读(141) 评论(0) 推荐(0) 编辑

内核源码分析——shuffle

摘要：中华石衫版本 1——每个shuffleMapTask都会为每个ResultTask创建一份bucket缓存，以及对应的shuffleBlockFile磁盘文件； 2——shuffleMapTask的输出，会作为MapStatus，发送到DAGScheduler的MapOutputTrackerMas 阅读全文

posted @ 2020-06-29 20:20 muyue123 阅读(170) 评论(0) 推荐(0) 编辑

问题

摘要：1:使用count(*)显示为0，但select操作时发现表有中数据。因为执行count(1)或count(*)统计行数时，默认会从Hive的元数据库中查询 rowsNum 对应值作为结果返回(至于为什么不自动更新，尚不清楚)。解决方案： 1——使用ANALYZE命令手动更新表统计信息：ANAL 阅读全文

posted @ 2020-06-29 17:42 muyue123 阅读(104) 评论(0) 推荐(0) 编辑

函数参数

摘要：请看廖雪峰。 https://www.liaoxuefeng.com/wiki/1016959663602400/1017261630425888 阅读全文

posted @ 2020-06-29 16:58 muyue123 阅读(100) 评论(0) 推荐(0) 编辑

问题记录

摘要：1:sparksql中无法批量删除hive分区 spark.sql("alter table spd_trancare_mid.tmp_package_info_from_s3 drop partition(dt<=20200319)") #报错 print('end') 2:spark运行时出现如阅读全文

posted @ 2020-06-28 18:25 muyue123 阅读(367) 评论(0) 推荐(0) 编辑

闭包和装饰器

摘要：闭包：延伸了作用域的函数，包含函数定义体中引用，但是不在定义体中定义的非全局变量。有3个要素—— 1：嵌套函数;2：内部函数引用了外部函数的局部变量；3：外部函数的返回值是内部函数的引用。 # 例子，来自《流畅的python》 def make_averager(): series=[] def a 阅读全文

posted @ 2020-06-28 13:45 muyue123 阅读(161) 评论(0) 推荐(0) 编辑

global和nonlocal 关键字

摘要：python变量引用顺序：从当前作用域开始寻找变量，如果没找到就往上一层作用域寻找，没找到就再上一层......即：当前作用域局部变量->外层作用域变量->再外层作用域变量->......->当前模块全局变量->pyhton内置变量。 global:全局变量 nonlocal:外层嵌套函数的变量使阅读全文

posted @ 2020-06-18 15:58 muyue123 阅读(249) 评论(0) 推荐(0) 编辑

sql执行顺序

摘要：(1) FROM:对FROM子句中的左表<left_table>和右表<right_table>执行笛卡儿积，产生虚拟表VT1;(2) ON: 对虚拟表VT1进行ON筛选，只有那些符合<join_condition>的行才被插入虚拟表VT2;(3) JOIN: 如果指定了OUTER JOIN(如LE 阅读全文

posted @ 2020-06-10 14:29 muyue123 阅读(109) 评论(0) 推荐(0) 编辑

参数设定

摘要：#spark.sql中的shuffle.partitions的个数，默认为200 spark.sql.shuffle.partitions=50 #存储和计算所占比例，默认为0.6spark.storage.memoryFraction=0.3 #拉取失败的最大重试次数，默认3次 #本地化等待的时长阅读全文

posted @ 2020-06-08 17:48 muyue123 阅读(165) 评论(0) 推荐(0) 编辑

行列变换的相关

摘要：PIVOT 用户将多行转换成列。如果需要转换特定的行，则将行的值做为列表参数传入。 from pyspark.sql import SparkSessionimport pyspark.sql.functions as Fspark = SparkSession.builder.master("lo 阅读全文

posted @ 2020-06-08 17:29 muyue123 阅读(148) 评论(0) 推荐(0) 编辑

pyspark 实现的wordcount

摘要：pyspark 实现的wordcount。 from pyspark.sql import SparkSession, DataFrame spark = SparkSession \ .builder \ .master("local[*]")\ .appName("PythonWordCount 阅读全文

posted @ 2020-06-08 16:30 muyue123 阅读(513) 评论(0) 推荐(0) 编辑

muyue123

06 2020 档案

公告