摘要: 参考: https://www.cnblogs.com/williamjie/p/9317565.html 刚开始建立新项目时,会出现缺包找不到类满篇红线等各种问题,要么换仓库,要么等,下载下来就OK了。 阅读全文
posted @ 2020-07-14 19:50 西伯尔 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 原Linux实验网址:http://dblab.xmu.edu.cn/blog/1757-2/ 实验一: spark的基础使用 1.数据载入部分 在本地 (可以是虚拟机,也可以是真实操作系统,需要在包含spark-hadoop的环境下) 创建一个文本peopleinfo.txt 1 F 170 2 阅读全文
posted @ 2020-07-14 12:16 西伯尔 阅读(790) 评论(0) 推荐(0) 编辑
摘要: 1.Hadoop (1)安装配置 基础只需要配置core-site.xml和hdfs-site.xml就行。 参考: https://www.jianshu.com/p/aa8cfaa26790【这个教程的core-site.xml和hdfs-site.xml的内容弄反了,交换一下就行】 http: 阅读全文
posted @ 2020-07-14 10:21 西伯尔 阅读(525) 评论(0) 推荐(0) 编辑
摘要: 1.RDD (1)RDD产生背景 为了解决开发人员能在大规模的集群中以一种容错的方式进行内存计算,提出了 RDD 的概念,而当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差, 这个是RDDs 的提出的动机。 (2)什么是 RDD RDD 是 Spark 的计算模型。RDD(Resi 阅读全文
posted @ 2020-07-14 02:39 西伯尔 阅读(376) 评论(0) 推荐(0) 编辑