2018 年 12月 6 日随笔档案 - 因为专注。所以专业

2018年12月6日

摘要： scala> import org.apache.spark.sql.SparkSession import org.apache.spark.sql.SparkSession scala> val spark = SparkSession.builder(). | master("local"). | appName("my... 阅读全文

posted @ 2018-12-06 18:25 因为专注。所以专业阅读(375) 评论(0) 推荐(0) 编辑

Spark RDD的设计与运行原理

摘要： Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for 阅读全文

posted @ 2018-12-06 16:32 因为专注。所以专业阅读(833) 评论(0) 推荐(0) 编辑

Scala 迭代器（Iterator）

摘要： 1、简述在Scala中，迭代器（Iterator）不是一个集合，是构建了一种访问集合的方法。当构建一个集合需要很大的开销时（比如把文件得所有行都读取到内存），迭代器就发挥了很好的作用。迭代器有两个操作，next 和hasNext。next返回迭代器的下一个元素，hasNext用于检查是否还有下一阅读全文

posted @ 2018-12-06 14:52 因为专注。所以专业阅读(3339) 评论(0) 推荐(0) 编辑

Scala 映射

摘要： 1、定义在Scala中，映射（map）是一系列键值对的集合。也就是说建立了键和值的对应关系。在映射中，所有的值都可以通过键来找到。映射包括两种，不可变和可变两种，默认创建的都是不可变映射，如果要创建可变映射，需要导入scala.collection.mutable.Map包。 2、创建映射 a、阅读全文

posted @ 2018-12-06 11:16 因为专注。所以专业阅读(449) 评论(0) 推荐(0) 编辑

SCala 集（set）

摘要：集是不重复元素的集合，列表得元素是按照插入得先后顺序组织的，但是集的元素并不记录插入的顺序，而是以“哈希”方法对元素的值进行组织，它允许你快速地找到某个元素。 1、不可变集 2、可变集声明不可变集时，如果使用val，mySet += “Scala”执行时会报错，所以需要声明为var。如果要声明一阅读全文

posted @ 2018-12-06 10:45 因为专注。所以专业阅读(334) 评论(0) 推荐(0) 编辑

因为专注。所以专业

不要因为走的太久，而忘记当初为什么出发。

公告