Spark - 随笔分类 - 王晓成

Spark RDD 操作

摘要：1. Spark RDD 创建操作 1.1 数据集合 parallelize 可以创建一个能够并行操作的RDD。其函数定义如下：由定义可见有两个参数，第一个参数指定数据集合，第二个参数指定数据分区。实例：由普通数组创建RDD scala> val data=Array(1,2,3,4,5,6,7 阅读全文

posted @ 2018-10-28 21:56 王晓成阅读(3004) 评论(0) 推荐(0)

贝叶斯、朴素贝叶斯及调用spark官网 mllib NavieBayes示例

摘要：贝叶斯法则机器学习的任务：在给定训练数据A时，确定假设空间B中的最佳假设。最佳假设：一种方法是把它定义为在给定数据A以及B中不同假设的先验概率的有关知识下的最可能假设贝叶斯理论提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身先验概率和后验概阅读全文

posted @ 2018-10-24 11:58 王晓成阅读(952) 评论(0) 推荐(0)

kmeans

摘要：K均值（K-means）算法 K-means 算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为形心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各簇的形心的值，直至得到最好的聚类结果。（形心可以是实际的点、或者是虚拟点）假阅读全文

posted @ 2018-10-23 16:17 王晓成阅读(992) 评论(0) 推荐(0)

Spark下的FP-Growth和Apriori

摘要：基本概念关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。这些关系可以有两种形式：频繁项集或者关联规则。频繁项集（frequent item sets)是经常出现在一块的物品的集合，关联规则(association rules)暗示两种物品之间可能存在很强的关系。下图是一个乒乓球店的交阅读全文

posted @ 2018-10-23 14:10 王晓成阅读(2169) 评论(0) 推荐(0)

scala spark-streaming整合kafka （spark 2.3 kafka 0.10）

摘要：Maven组件如下：官网代码如下：运行以上代码出现如下错误等： Exception in thread "main" org.apache.kafka.common.config.ConfigException: Missing required configuration "bootstrap 阅读全文

posted @ 2018-10-22 12:01 王晓成阅读(3843) 评论(0) 推荐(0)

通过spark sql 将 hdfs上文件导入到mongodb

摘要：通过spark sql 将hdfs 文件导入到mongodb 阅读全文

posted @ 2018-07-20 23:34 王晓成阅读(1365) 评论(0) 推荐(0)

spark2.3.0 配置spark sql 操作hive

摘要：spark可以通过读取hive的元数据来兼容hive，读取hive的表数据，然后在spark引擎中进行sql统计分析，从而，通过spark sql与hive结合实现数据分析将成为一种最佳实践。配置步骤如下： 1、启动hive的元数据服务 [root@master apache-hive-1.2.2- 阅读全文

posted @ 2018-06-27 10:15 王晓成阅读(8300) 评论(0) 推荐(0)

spark dataFrame withColumn

摘要：说明：withColumn用于在原有DF新增一列 1. 初始化sqlContext val sqlContext = new org.apache.spark.sql.SQLContext(sc) 2.导入sqlContext隐式转换 import sqlContext.implicits._ 3. 阅读全文

posted @ 2018-06-25 19:17 王晓成阅读(3097) 评论(0) 推荐(0)

公告

随笔分类 - Spark