05 2022 档案

摘要:内存不足问题 spark 默认分配的内存是4G,通过这个命令分配更大的内存空间给我们的任务 spark-shell --driver-memory 12g import org.apache.spark.sql.DataFrame val hdfs_path_apply: String = s"/m 阅读全文
posted @ 2022-05-22 22:13 yihailin 阅读(69) 评论(0) 推荐(0) 编辑
摘要:环境准备 目标环境是ubuntu 20,其实是windows下的子系统wsl里安装的。需要安装 pyspark 3.2.1 openjdk 15 注意pyspark 3.2.1 对应的最高版本jdk为openjdk15。安装也比较简单。 pyspark通过pip安装 pip3 install pys 阅读全文
posted @ 2022-05-20 20:44 yihailin 阅读(93) 评论(0) 推荐(0) 编辑
摘要:首先利用fileReader.readAsText(filePart) 默认通过utf8格式读取文件,如果文件中有非utf8字符会替换成�, 如果有�说明有非utf8字符。 windows下还有utf8 BOM格式的编码,这里通过判断文件头几个字符来判断文件是否是utf8 BOM编码。最后如果文件太 阅读全文
posted @ 2022-05-06 22:55 yihailin 阅读(1246) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示