随笔分类 - Spark MLlib概念学习系列
1)底层的分布式机器学习库MLlib 2)MLlib 是构建在 Spark 上的分布式机器学习库
摘要:不多说,直接上干货! RFormula算法介绍: RFormula通过R模型公式来选择列。支持R操作中的部分操作,包括‘~’, ‘.’, ‘:’, ‘+’以及‘-‘,基本操作如下: 1、 ~分隔目标和对象 2、+合并对象,“+ 0”意味着删除空格 3、 :交互(数值相乘,类别二值化) 4、. 除了目
阅读全文
摘要:不多说,直接上干货! VectorSlicer 算法介绍: VectorSlicer是一个转换器,输入特征向量,输出原始特征向量子集。VectorSlicer接收带有特定索引的向量列,通过对这些索引的值进行筛选得到新的向量集。 可接受如下两种索引: 1、整数索引,setIndices()。 2、字符
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货! 。
阅读全文
摘要:不多说,直接上干货! 肯定也有不少博友,跟我一样,刚开始接触的时候,会对这三个概念混淆。 以下是,特征处理、特征提取、特征转换和特征选择的区别! 特征处理主要包含三个方面:特征提取、特征转换和特征选择。 见我下面的博客 机器学习概念之特征提取(Feature extraction) 机器学习概念之特
阅读全文
摘要:Spark MLlib架构解析 MLlib的底层基础解析 MLlib的算法库分析 分类算法 回归算法 聚类算法 协同过滤 MLlib的实用程序分析 分类算法 回归算法 聚类算法 协同过滤 从架构图可以看出MLlib主要包含三个部分: 底层基础:包括Spark的运行库、矩阵库和向量库; 算法库:包含广
阅读全文
摘要:不多说,因最近科研的需要,为此从hadoop和spark领域,得结合机器学习/深度学习。为此,给大家带来进一步的干货! 1、机器学习概念 1.1 机器学习的定义 1.2 机器学习的分类 1.2.1 监督学习 1.2.2 无监督学习 1.2.3 半监督学习 1.2.4 强化学习 1.3 机器学习的常见
阅读全文
摘要:前言 Spark MLlib是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。
阅读全文