spark - 随笔分类 - muyue123

oom常见的解决方式

摘要：分析spark常见的问题不外乎oom：我们首先看一下Spark 的内存模型：Spark在一个Executor中的内存分为三块，一块是execution内存，一块是storage内存，一块是other内存。execution内存是执行内存，文档中说join，aggregate都在这部分内存中执行，sh 阅读全文

posted @ 2021-10-28 17:34 muyue123 阅读(512) 评论(0) 推荐(0) 编辑

spark中替换回车换行等

摘要：当要匹配特殊的隐藏字符\n \r \t ,等回车符、制表符时，需要通过使用四个 \ 进行转译。 regexp_replace(title, '\\\\n|\\\\\t|\\\\\r', ',') title 使用char(*)也可以进行处理 spark.sql("select regexp_repl 阅读全文

posted @ 2021-04-25 16:38 muyue123 阅读(1680) 评论(0) 推荐(0) 编辑

hint 说明

摘要：spark.sql( "select /*+ mapjoin(b) */ " "* from t1 a left join t2 b on a.id=b.id" ).explain()1：当表有别名时，需要hint的是表的别名；2：hint的关键字（例如本例中的:mapjoin），大小写都可以识别。阅读全文

posted @ 2021-01-06 11:31 muyue123 阅读(132) 评论(0) 推荐(0) 编辑

spark读写mysql

摘要：* 获取 Mysql 表的数据** @param sqlContext* @param tableName 读取Mysql表的名字* @param proPath 配置文件的路径* @return 返回 Mysql 表的 DataFrame*/def readMysqlTable(sqlContex 阅读全文

posted @ 2020-11-27 11:30 muyue123 阅读(161) 评论(0) 推荐(0) 编辑

spark-submit参数详解

摘要：通用可选参数： --master MASTER_URL, 可以是 spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local --deploy-mode DEPLOY_MODE, Driver 程序运行的阅读全文

posted @ 2020-11-25 15:58 muyue123 阅读(5778) 评论(0) 推荐(0) 编辑

正则表达式

摘要：替换“-”和多个空格 select regexp_replace('a-b cd','-|\\s+','') 阅读全文

posted @ 2020-11-18 16:38 muyue123 阅读(47) 评论(0) 推荐(0) 编辑

查看yarn的log

摘要：yarn application -listyarn logs -applicationId application_1493700892407_0007 阅读全文

posted @ 2020-11-18 14:00 muyue123 阅读(970) 评论(0) 推荐(0) 编辑

复杂数据类型

摘要：inline函数： SELECT inline(array(struct(1, 'a'), struct(2, 'b'))) 1 a2 b 阅读全文

posted @ 2020-10-26 10:31 muyue123 阅读(126) 评论(0) 推荐(0) 编辑

查看运行时参数

摘要：print(spark.sql('set -v').collect()) 阅读全文

posted @ 2020-09-02 14:52 muyue123 阅读(112) 评论(0) 推荐(0) 编辑

.sparkstaging设置

摘要：对于/user/root/.sparkStaging下文件，是spark任务依赖文件，可以将jar包上传到指定目录下，避免或减少了jar包的重复上传，进而减少任务的等待时间。可以在spark的配置文件spark-defaults.conf配置如下内容： spark.yarn.archive=hdf 阅读全文

posted @ 2020-08-31 11:54 muyue123 阅读(2179) 评论(0) 推荐(0) 编辑

查看日志

摘要：yarn logs -applicationId application_1598508303322_0300 阅读全文

posted @ 2020-08-31 11:30 muyue123 阅读(91) 评论(0) 推荐(0) 编辑

cache,persist以及checkpoint

摘要：checkpoint写流程可以看到checkpoint使用非常简单，设置checkpoint目录，然后调用RDD的checkpoint方法。针对checkpoint的写入流程，主要有以下四个问题： Q1：RDD中的数据是什么时候写入的？是在rdd调用checkpoint方法时候吗？ Q2：在做ch 阅读全文

posted @ 2020-07-03 12:42 muyue123 阅读(158) 评论(0) 推荐(0) 编辑

内核源码分析——shuffle

摘要：中华石衫版本 1——每个shuffleMapTask都会为每个ResultTask创建一份bucket缓存，以及对应的shuffleBlockFile磁盘文件； 2——shuffleMapTask的输出，会作为MapStatus，发送到DAGScheduler的MapOutputTrackerMas 阅读全文

posted @ 2020-06-29 20:20 muyue123 阅读(170) 评论(0) 推荐(0) 编辑

问题记录

摘要：1:sparksql中无法批量删除hive分区 spark.sql("alter table spd_trancare_mid.tmp_package_info_from_s3 drop partition(dt<=20200319)") #报错 print('end') 2:spark运行时出现如阅读全文

posted @ 2020-06-28 18:25 muyue123 阅读(367) 评论(0) 推荐(0) 编辑

参数设定

摘要：#spark.sql中的shuffle.partitions的个数，默认为200 spark.sql.shuffle.partitions=50 #存储和计算所占比例，默认为0.6spark.storage.memoryFraction=0.3 #拉取失败的最大重试次数，默认3次 #本地化等待的时长阅读全文

posted @ 2020-06-08 17:48 muyue123 阅读(165) 评论(0) 推荐(0) 编辑

muyue123

随笔分类 - spark

公告