摘要: scala> import org.apache.spark.sql.SparkSession import org.apache.spark.sql.SparkSession scala> val spark = SparkSession.builder(). | master("local"). | appName("my... 阅读全文
posted @ 2018-12-06 18:25 因为专注。所以专业 阅读(375) 评论(0) 推荐(0) 编辑
摘要: Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for 阅读全文
posted @ 2018-12-06 16:32 因为专注。所以专业 阅读(833) 评论(0) 推荐(0) 编辑
摘要: 1、简述 在Scala中,迭代器(Iterator)不是一个集合,是构建了一种访问集合的方法。当构建一个集合需要很大的开销时(比如把文件得所有行都读取到内存),迭代器就发挥了很好的作用。 迭代器有两个操作,next 和hasNext。next返回迭代器的下一个元素,hasNext用于检查是否还有下一 阅读全文
posted @ 2018-12-06 14:52 因为专注。所以专业 阅读(3339) 评论(0) 推荐(0) 编辑
摘要: 1、定义 在Scala中,映射(map)是一系列键值对的集合。也就是说建立了键和值的对应关系。在映射中,所有的值都可以通过键来找到。 映射包括两种,不可变和可变两种,默认创建的都是不可变映射,如果要创建可变映射,需要导入scala.collection.mutable.Map包。 2、创建映射 a、 阅读全文
posted @ 2018-12-06 11:16 因为专注。所以专业 阅读(449) 评论(0) 推荐(0) 编辑
摘要: 集是不重复元素的集合,列表得元素是按照插入得先后顺序组织的,但是集的元素并不记录插入的顺序,而是以“哈希”方法对元素的值进行组织,它允许你快速地找到某个元素。 1、不可变集 2、可变集 声明不可变集时,如果使用val,mySet += “Scala”执行时会报错,所以需要声明为var。 如果要声明一 阅读全文
posted @ 2018-12-06 10:45 因为专注。所以专业 阅读(334) 评论(0) 推荐(0) 编辑