半结构化数据
摘要:1、半结构化数据定义 结构化数据:传统数据库中定义的数据,商业的交易数据等都是拥有固定的数据结构。 非结构化数据:另一个极端,对于图片、声音和生文本(指未经计算机处理的预料),这些数据完全没有固定结构,故被称为非结构化数据。 半结构化数据(semi-structured data):处于两个极端之间
阅读全文
posted @
2022-08-29 21:58
西伯尔
阅读(5493)
推荐(0) 编辑
Scala+IntelliJ IDEA
摘要:参考: https://www.cnblogs.com/williamjie/p/9317565.html 刚开始建立新项目时,会出现缺包找不到类满篇红线等各种问题,要么换仓库,要么等,下载下来就OK了。
阅读全文
posted @
2020-07-14 19:50
西伯尔
阅读(114)
推荐(0) 编辑
Spark学习(三)Spark实验+win10
摘要:原Linux实验网址:http://dblab.xmu.edu.cn/blog/1757-2/ 实验一: spark的基础使用 1.数据载入部分 在本地 (可以是虚拟机,也可以是真实操作系统,需要在包含spark-hadoop的环境下) 创建一个文本peopleinfo.txt 1 F 170 2
阅读全文
posted @
2020-07-14 12:16
西伯尔
阅读(802)
推荐(0) 编辑
Spark学习(二)win10部署Hadoop+Spark
摘要:1.Hadoop (1)安装配置 基础只需要配置core-site.xml和hdfs-site.xml就行。 参考: https://www.jianshu.com/p/aa8cfaa26790【这个教程的core-site.xml和hdfs-site.xml的内容弄反了,交换一下就行】 http:
阅读全文
posted @
2020-07-14 10:21
西伯尔
阅读(534)
推荐(0) 编辑
Spark学习(一)Spark术语、概念理解
摘要:1.RDD (1)RDD产生背景 为了解决开发人员能在大规模的集群中以一种容错的方式进行内存计算,提出了 RDD 的概念,而当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差, 这个是RDDs 的提出的动机。 (2)什么是 RDD RDD 是 Spark 的计算模型。RDD(Resi
阅读全文
posted @
2020-07-14 02:39
西伯尔
阅读(386)
推荐(0) 编辑
Spark任务调度和资源分配
摘要:1.Spark Context 向集群申请的资源具体有哪些? 内存和CPU。 2.Spark Context 通过什么配置方式向集群申请这些资源?或者说如何调节这些资源的数量? spark的分配资源主要就是 executor、cpu per executor、memory per executor、
阅读全文
posted @
2020-07-13 11:13
西伯尔
阅读(365)
推荐(0) 编辑