随笔分类 - Spark
摘要:txtFile = r'C:\Desktop\1.txt' rdd = sparkContext.textFile(txtFile) rdd.flatMap(lambda x: x.split()).map(lambda x: (x, 1)).reduceByKey(lambda x, y: x+y
阅读全文
摘要:六、对图相关的概念要理解,掌握GraphFrames的使用以及实现的经典算法。 1、图概念 在计算机科学中,图是一种重要的数据结构,它具有强大的表达能力,广泛应用于通信网络、搜索引擎、社交网络及自然语言处理等领域。 一般地,图(Graph)是由顶点的非空有限集和边的有限集构成的,记作G=<V,E>,
阅读全文
摘要:四、掌握spark streaming的工作原理、离散化流、实时数据获取(套接字和文件夹)等内容,掌握Dstream的各种转换(具体到代码的编写使用); 1、流数据 (1)流数据的概念 流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合
阅读全文
摘要:五、掌握spark 在机器学习的应用,包括MLlib(简单了解)和ML(重点掌握),对机器学习的整个流程要理解,对ML的转换器、预测器和管道要理解并知道如何在实际例子中使用,掌握管道和模型保存和加载的方法,对模型的评估指标有大概的认识理解; 1、机器学习 目前机器学习主流分为:监督学习,无监督学习,
阅读全文
摘要:二、掌握spark RDD的概念、算子的作用和使用(包括创建和各种转换运算,具体到代码的编写使用),不同共享变量的作用和使用、对于RDD的依赖关系要理解,知道持久化的方法以及类型; 1、Spark RDD的概念 RDD是可扩展的弹性分布式数据集(一种容错的并行数据结构); 是只读、分区且不变的数据集
阅读全文
摘要:三、掌握对spark dataframe和spark sql的认识和使用(包括创建、各种常用操作,具体到代码的编写使用); 1、DataFrame介绍 在Spark中,Spark DataFrame和Spark SQL是SparkRDD高层次的封装,Spark DataFrame以RDD为基础,是一
阅读全文
摘要:一、对spark有总体的认识,包括生态、架构、原理和特性等; 1、Spark的概念: Spark 是一个类于 Hadoop MapReduce 的通用并行框架, 由Scala语言实现的专门为大规模数据处理而设计的快速通用的技术分析引擎。 Spark的特点:快速、通用、易用、兼容性好。 Spark具备
阅读全文
摘要:实验操作步骤 1、读取csv文件,并创建dataframe sc = SparkContext() sqlContext = SQLContext(sc) reader = sqlContext.read df_emp = reader.schema("emp_id String, emp_name
阅读全文
摘要:1、Spark测试时出现错误 原因: 由于之前修改了主机名,导致修改后的主机名和hosts文件中的127.0.0.1映射不存在,因此在执行spark-shell和pyspark的时候,会出现错误, 经过不断的测试,找到了问题并成功解决。 解决方法: 使用hostname命令查看当前主机名,我这边是u
阅读全文