2019 年 8月 4 日随笔档案 - DiYong

2019年8月4日

摘要：第1章 RDD概念弹性分布式数据集 1.1 RDD为什么会产生 RDD是Spark的基石，是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢？ Hadoop的MapReduce是一种基于数据集的工作模式，面向数据，这种工作模式一般是从存储上加载数据集，然后操作数据集，最后写入物理存储设备阅读全文

posted @ 2019-08-04 02:17 DiYong 阅读(1165) 评论(0) 推荐(0) 编辑

4 IDEA环境应用

摘要：第4章 IDEA环境应用 spark shell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDE中编制程序，然后打成jar包，然后提交到集群，最常用的是创建一个Maven项目，利用Maven来管理jar包的依赖。 4.1 在IDEA中编写WordCount程序 1）创建一个Mave 阅读全文

posted @ 2019-08-04 02:04 DiYong 阅读(141) 评论(0) 推荐(0) 编辑

Diyo

公告