摘要:
1.请分析sparkSQL出现的原因,并简述SparkSQL的起源和发展 1.1 出现的原因 1.关系数据库已经很流行 2.关系数据库在大数据时代已经不能满足要求•首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理•在实际大 阅读全文
摘要:
集合运算练习 union(), intersection(),subtract(), cartesian() rdd1=sc.parallelize('abcd') rdd2=sc.parallelize('bcde') rdd1.collect() rdd2.collect() rdd1.unio 阅读全文
摘要:
一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 hdfs dfs -put ./data/my.txt ./ hdfs dfs -ls ./ 读文件创建RDD lines=sc.textFile("hdfs://localhost:9000/user/hjq/my. 阅读全文
摘要:
RDD创建 从本地文件系统中加载数据创建RDD 1、启动spark pyspark 从文件系统中加载数据创建RDD sc #SparkContext的创建 lines = sc.textFile("file:///home/hjq/data/text.txt") lines lines.foreac 阅读全文
摘要:
Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 组件介绍 Spark Core: Spark的核心组件,其操作的数据对象是RDD(弹性分布式数据集),图中在Spark Core上面的四个组件都依赖于Spark Core,可以简单认为Sp 阅读全文
摘要:
一、安装Spark 1、检查基础环境hadoop,jdk echo $JAVA_HOME java -version start-dfs.sh jps 2、下载、解压、配置spark 此步骤实验前已经完成,故跳过。 3、环境变量 gedit ~/.bashrc #编辑 source ~/.bashr 阅读全文