2020年3月31日
摘要: Spark的核心是RDD(弹性分布式数据集),是由AMPLab实验室提出的概念,属于一种分布式的内存系统数据集应用。Spark的主要优势来自RDD本身的特性,RDD能与其他系统兼容,可以导入外部存储系统数据,例如HDFS、HBase或者其他Hadoop数据源。 RDD的3种基本运算: 1)“转换“运 阅读全文
posted @ 2020-03-31 17:32 桌子哥 阅读(463) 评论(0) 推荐(0) 编辑
摘要: 在历经千辛万苦后,终于把所有的东西都配置好了。 下面开始介绍pyspark的一些基础内容,以字数统计为例。 1)在本地运行pyspark程序 读取本地文件 textFile=sc.textFile("file:/usr/local/spark/README.md") textFile.count() 阅读全文
posted @ 2020-03-31 10:47 桌子哥 阅读(1541) 评论(0) 推荐(0) 编辑