摘要: 今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。 博客中提到的环境变量配置方法已经有更简单的方式可以替代。 使用findspark模块来达到自动配置环境变量的目的。 Findspark 之后就可以在代码前端加入 import findspark findspark.ini 阅读全文
posted @ 2020-01-27 21:49 limitCM 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 这篇准备尝试RDD的编程操作。 spark运行用户从文件系统中加载数据、通过并行集合(数组)创建RDD,两种都是很方便的操作方式。 应对实验,我在创建了一个文本文件。内容包括—— 之后就是尝试创建RDD。 在pyspark中使用—— >>> students=sc.textFile("file:// 阅读全文
posted @ 2020-01-27 20:12 limitCM 阅读(172) 评论(0) 推荐(0) 编辑