随笔分类 - Spark MLlib编程入门系列

IDEA里运行程序时出现Error：scalac：error while loading JUnit4 , Scala signature JUnit4 has wrong version错误的解决办法（图文详解）

摘要：不多说，直接上干货！问题详情当我们在运行程序时，出现Error：scalac：error while loading JUnit4 , Scala signature JUnit4 has wrong version，见下图。原因所在是版本冲突吧，juint的这个包你用的是什么，一般都阅读全文

posted @ 2018-03-12 15:50 大数据和AI躺过的坑阅读(4237) 评论(0) 推荐(0) 编辑

Spark Mllib里如何生成KMeans的训练样本数据、生成线性回归的训练样本数据、生成逻辑回归的训练样本数据和其他数据生成

摘要：不多说，直接上干货！具体，见 Spark Mllib机器学习（算法、源码及实战详解）的第2章 Spark数据操作阅读全文

posted @ 2017-09-09 23:47 大数据和AI躺过的坑阅读(544) 评论(0) 推荐(0) 编辑

Spark Mllib里如何采用保序回归做回归分析（图文详解）

摘要：不多说，直接上干货！相比于决策树，保序回归的应用范围没有决策树算法那么广泛。特别在数据处理较为庞大的时候，采用保序回归做回归分析，可以极大地节省资源，从而提高计算效率。保序回归的思想，是对数据进行均值排序，从数据集的第一个数开始，如果下一个数出现乱序，即与设定的顺序不符，则从乱序的数据开始逐个阅读全文

posted @ 2017-09-06 20:38 大数据和AI躺过的坑阅读(690) 评论(0) 推荐(0) 编辑

机器学习概念之梯度下降算法（全量梯度下降算法、随机梯度下降算法、批量梯度下降算法）

摘要：不多说，直接上干货！回归与梯度下降回归在数学上来说是给定一个点集，能够用一条曲线去拟合之，如果这个曲线是一条直线，那就被称为线性回归，如果曲线是一条二次曲线，就被称为二次回归，回归还有很多的变种，如本地加权回归、逻辑回归，等等。用一个很简单的例子来说明回归，这个例子来自很多的地方，也在很多的开阅读全文

posted @ 2017-09-05 19:40 大数据和AI躺过的坑阅读(8771) 评论(0) 推荐(2) 编辑

Spark Mllib里的协调过滤的概念和实现步骤、LS、ALS的原理、ALS算法优化过程的推导、隐式反馈和ALS-WR算法

摘要：不多说，直接上干货！常见的推荐算法 1、基于关系规则的推荐 2、基于内容的推荐 3、人口统计式的推荐 4、协调过滤式的推荐（广泛采用）协调过滤的概念在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (C 阅读全文

posted @ 2017-09-05 14:09 大数据和AI躺过的坑阅读(4006) 评论(0) 推荐(1) 编辑

Spark Mllib里相似度度量（基于余弦相似度计算不同用户之间相似性）（图文详解）

摘要：不多说，直接上干货！常见的推荐算法 1、基于关系规则的推荐 2、基于内容的推荐 3、人口统计式的推荐 4、协调过滤式的推荐协调过滤算法，是一种基于群体用户或者物品的典型推荐算法，也是目前常用的推荐算法中最常用和最经典的算法。协调过滤算法主要有两种：用户对物品：考查具有相同爱好的用户对相同物阅读全文

posted @ 2017-09-05 09:56 大数据和AI躺过的坑阅读(4973) 评论(0) 推荐(0) 编辑

Spark Mllib里的卡方检验

摘要：不多说，直接上干货！具体，见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计阅读全文

posted @ 2017-09-04 21:46 大数据和AI躺过的坑阅读(479) 评论(0) 推荐(0) 编辑

Spark Mllib里的分层抽样（使用map作为分层抽样的数据标记）

摘要：不多说，直接上干货！具体，见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计阅读全文

posted @ 2017-09-04 21:45 大数据和AI躺过的坑阅读(914) 评论(0) 推荐(0) 编辑

Spark Mllib里的如何对单个数据集用斯皮尔曼计算相关系数

摘要：不多说，直接上干货！具体，见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计阅读全文

posted @ 2017-09-04 21:25 大数据和AI躺过的坑阅读(316) 评论(0) 推荐(0) 编辑

Spark Mllib里的如何对两组数据用斯皮尔曼计算相关系数

摘要：不多说，直接上干货！具体，见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计阅读全文

posted @ 2017-09-04 21:10 大数据和AI躺过的坑阅读(522) 评论(0) 推荐(0) 编辑

Spark Mllib里的如何对两组数据用皮尔逊计算相关系数

摘要：不多说，直接上干货！具体，见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计阅读全文

posted @ 2017-09-04 21:06 大数据和AI躺过的坑阅读(457) 评论(0) 推荐(0) 编辑

Spark Mllib里的分布式矩阵（行矩阵、带有行索引的行矩阵、坐标矩阵和块矩阵概念、构成）（图文详解）

摘要：不多说，直接上干货！ RowMatrix要从RDD[Vector]构造，m是mat的行数，n是mat的列。 x和y分别代表标示坐标的坐标轴标号，value是具体内容。x是行坐标，y是列坐标。阅读全文

posted @ 2017-09-03 13:03 大数据和AI躺过的坑阅读(1392) 评论(0) 推荐(0) 编辑

Spark Mllib里的本地矩阵概念、构成（图文详解）

摘要：不多说，直接上干货！更多具体，见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计阅读全文

posted @ 2017-09-03 12:56 大数据和AI躺过的坑阅读(930) 评论(0) 推荐(0) 编辑

Spark Mllib里的向量标签概念、构成（图文详解）

摘要：不多说，直接上干货！ Labeled point：向量标签向量标签用于对Spark Mllib中机器学习算法的不同值做标记。例如分类问题中，可以将不同的数据集分成若干份，以整数0、1、2,....进行标记，即我们程序开发者可以根据自己业务需要对数据进行标记。向量标签和向量是一起的，简单来说，阅读全文

posted @ 2017-09-03 12:54 大数据和AI躺过的坑阅读(809) 评论(0) 推荐(0) 编辑

Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）

摘要：不多说，直接上干货！ Local vector ：本地向量集由两类构成：稀疏型数据集（spares）和密集型数据集（dense）（1）、密集型数据集例如一个向量数据（9,5,2,7）,可以设定为（9,5,2,7）进行存储，数据集被作为一个集合的形式整体存储。（2）、稀疏型数据集例如一个向阅读全文

posted @ 2017-09-03 12:50 大数据和AI躺过的坑阅读(1449) 评论(0) 推荐(0) 编辑

Spark Mllib里的Mllib基本数据类型（图文详解）

摘要：不多说，直接上干货！ Spark Mllib基本数据类型，根据不同的作用和应用场景，分为四种不同的类型 1、Local vector ：本地向量集，主要向spark提供一组可进行操作的数据集合 2、Labeled point：向量标签，让用户能够分类不同的数据集合 3、Local matrix：阅读全文

posted @ 2017-09-03 12:46 大数据和AI躺过的坑阅读(882) 评论(0) 推荐(0) 编辑

Spark Mllib里如何建立向量标签（图文详解）

摘要：不多说，直接上干货！注意：具体，见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计阅读全文

posted @ 2017-09-02 21:36 大数据和AI躺过的坑阅读(570) 评论(0) 推荐(0) 编辑

Spark Mllib里如何建立密集向量和稀疏向量（图文详解）

摘要：不多说，直接上干货！具体，见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计阅读全文

posted @ 2017-09-02 21:24 大数据和AI躺过的坑阅读(528) 评论(0) 推荐(0) 编辑

Spark Mllib里决策树回归分析使用.rootMeanSquaredError方法计算出以RMSE来评估模型的准确率（图文详解）

摘要：不多说，直接上干货！ Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率和决策树多元分类使用.precision方法以precision来评估模型的准确率（图文详解） Spark Mllib里决策树回归分析使用.rootMeanSquaredEr 阅读全文

posted @ 2017-09-01 16:48 大数据和AI躺过的坑阅读(531) 评论(0) 推荐(0) 编辑

Spark Mllib里决策树回归分析如何对numClasses无控制和将部分参数设置为variance（图文详解）

摘要：不多说，直接上干货！在决策树二元或决策树多元分类参数设置中：使用DecisionTree.trainClassifier 见 Spark Mllib里如何对决策树二元分类和决策树多元分类的分类数目numClasses控制（图文详解）在决策树回归分析参数设置中：使用DecisionTree.t 阅读全文

posted @ 2017-09-01 16:30 大数据和AI躺过的坑阅读(268) 评论(0) 推荐(0) 编辑

公告

欢迎您来到《大数据和人工智能躺过的坑》的3D彩色云标签，让您多份关注与留念。微信公众号平台1：大数据躺过的坑微信公众号平台2：今日热点在线微信公众号平台3 ：九哥九嫂小日子大数据和人工智能躺过的坑（总群）： 161156071 更多QQ技术分群，详情请见：http://www.cnblogs.com/zlslch/p/7473861.html

昵称：大数据和AI躺过的坑
园龄： 9年3个月
粉丝： 1315
关注： 39

+加关注

2025年3月

日

一

二

三

四

五

六

大数据和人工智能躺过的坑

随笔分类 - Spark MLlib编程入门系列

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论