随笔分类 - spark
摘要:分析spark常见的问题不外乎oom:我们首先看一下Spark 的内存模型:Spark在一个Executor中的内存分为三块,一块是execution内存,一块是storage内存,一块是other内存。execution内存是执行内存,文档中说join,aggregate都在这部分内存中执行,sh
阅读全文
摘要:当要匹配特殊的隐藏字符\n \r \t ,等回车符、制表符时,需要通过使用四个 \ 进行转译。 regexp_replace(title, '\\\\n|\\\\\t|\\\\\r', ',') title 使用char(*)也可以进行处理 spark.sql("select regexp_repl
阅读全文
摘要:spark.sql( "select /*+ mapjoin(b) */ " "* from t1 a left join t2 b on a.id=b.id" ).explain()1:当表有别名时,需要hint的是表的别名;2:hint的关键字(例如本例中的:mapjoin),大小写都可以识别。
阅读全文
摘要:* 获取 Mysql 表的数据** @param sqlContext* @param tableName 读取Mysql表的名字* @param proPath 配置文件的路径* @return 返回 Mysql 表的 DataFrame*/def readMysqlTable(sqlContex
阅读全文
摘要:通用可选参数: --master MASTER_URL, 可 以 是 spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local --deploy-mode DEPLOY_MODE, Driver 程序运行的
阅读全文
摘要:替换“-”和多个空格 select regexp_replace('a-b cd','-|\\s+','')
阅读全文
摘要:yarn application -listyarn logs -applicationId application_1493700892407_0007
阅读全文
摘要:inline函数: SELECT inline(array(struct(1, 'a'), struct(2, 'b'))) 1 a2 b
阅读全文
摘要:print(spark.sql('set -v').collect())
阅读全文
摘要:对于/user/root/.sparkStaging下文件,是spark任务依赖文件,可以将jar包上传到指定目录下,避免或减少了jar包的重复上传,进而减少任务的等待时间。 可以在spark的配置文件spark-defaults.conf配置如下内容: spark.yarn.archive=hdf
阅读全文
摘要:yarn logs -applicationId application_1598508303322_0300
阅读全文
摘要:checkpoint写流程 可以看到checkpoint使用非常简单,设置checkpoint目录,然后调用RDD的checkpoint方法。针对checkpoint的写入流程,主要有以下四个问题: Q1:RDD中的数据是什么时候写入的?是在rdd调用checkpoint方法时候吗? Q2:在做ch
阅读全文
摘要:中华石衫版本 1——每个shuffleMapTask都会为每个ResultTask创建一份bucket缓存,以及对应的shuffleBlockFile磁盘文件; 2——shuffleMapTask的输出,会作为MapStatus,发送到DAGScheduler的MapOutputTrackerMas
阅读全文
摘要:1:sparksql中无法批量删除hive分区 spark.sql("alter table spd_trancare_mid.tmp_package_info_from_s3 drop partition(dt<=20200319)") #报错 print('end') 2:spark运行时出现如
阅读全文
摘要:#spark.sql中的shuffle.partitions的个数,默认为200 spark.sql.shuffle.partitions=50 #存储和计算所占比例,默认为0.6spark.storage.memoryFraction=0.3 #拉取失败的最大重试次数,默认3次 #本地化等待的时长
阅读全文