摘要: 第1章 RDD概念 弹性分布式数据集 1.1 RDD为什么会产生 RDD是Spark的基石,是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢? Hadoop的MapReduce是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备 阅读全文
posted @ 2019-08-04 02:17 DiYong 阅读(1165) 评论(0) 推荐(0) 编辑
摘要: 第4章 IDEA环境应用 spark shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖。 4.1 在IDEA中编写WordCount程序 1)创建一个Mave 阅读全文
posted @ 2019-08-04 02:04 DiYong 阅读(141) 评论(0) 推荐(0) 编辑