05 2022 档案
摘要:内存不足问题 spark 默认分配的内存是4G,通过这个命令分配更大的内存空间给我们的任务 spark-shell --driver-memory 12g import org.apache.spark.sql.DataFrame val hdfs_path_apply: String = s"/m
阅读全文
摘要:环境准备 目标环境是ubuntu 20,其实是windows下的子系统wsl里安装的。需要安装 pyspark 3.2.1 openjdk 15 注意pyspark 3.2.1 对应的最高版本jdk为openjdk15。安装也比较简单。 pyspark通过pip安装 pip3 install pys
阅读全文
摘要:首先利用fileReader.readAsText(filePart) 默认通过utf8格式读取文件,如果文件中有非utf8字符会替换成�, 如果有�说明有非utf8字符。 windows下还有utf8 BOM格式的编码,这里通过判断文件头几个字符来判断文件是否是utf8 BOM编码。最后如果文件太
阅读全文