摘要:
目录 什么是支持向量机(SVM) 线性可分数据集的分类 线性可分数据集的分类(对偶形式) 线性近似可分数据集的分类 线性近似可分数据集的分类(对偶形式) 非线性数据集的分类 SMO算法 合页损失函数 Python代码(sklearn库) 什么是支持向量机(SVM) 引例 假定有训练数据集,其中,x是 阅读全文
摘要:
目录 支持向量机原理 支持向量机代码(Spark Python) 支持向量机原理 详见博文:http://www.cnblogs.com/itmorn/p/8011587.html 返回目录 支持向量机代码(Spark Python) 代码里数据:https://pan.baidu.com/s/1j 阅读全文
摘要:
目录 Vector LabeledPoint Matrix 使用C4.5算法生成决策树 使用CART算法生成决策树 预剪枝和后剪枝 应用:遇到连续与缺失值怎么办? 多变量决策树 Python代码(sklearn库) Vector 一个数学向量。MLlib 既支持稠密向量也支持稀疏向量,前者表示向量的 阅读全文
摘要:
目录 保存为文本文件:saveAsTextFile 保存为json:saveAsTextFile 保存为SequenceFile:saveAsSequenceFile 读取hive 保存为文本文件:saveAsTextFile 返回目录 保存为json:saveAsTextFile 返回目录 保存为 阅读全文
摘要:
目录 引例入门:textFile、collect、filter、first、persist、count 创建RDD的方式:parallelize、textFile 转化操作:map、filter、flatMap、sample、union、intersection、subtract、cartesian 阅读全文
摘要:
目录 安装jdk 安装eclipse 安装PyDev插件 配置Spark 配置Hadoop Python代码 配置Spark 下载Spark http://spark.apache.org/downloads.html 配置环境变量 变量名:SPARK_HOME 变量值:D:\spark (不能有空 阅读全文
摘要:
目录 什么是决策树(Decision Tree) 特征选择 使用ID3算法生成决策树 使用C4.5算法生成决策树 使用CART算法生成决策树 预剪枝和后剪枝 应用:遇到连续与缺失值怎么办? 多变量决策树 Python代码(sklearn库) 什么是决策树(Decision Tree) 引例 现有训练 阅读全文
摘要:
目录 先验概率与后验概率 条件概率公式、全概率公式、贝叶斯公式 什么是朴素贝叶斯(Naive Bayes) 拉普拉斯平滑(Laplace Smoothing) 应用:遇到连续变量怎么办?(多项式分布,高斯分布) Python代码(sklearn库) 先验概率与后验概率 引例 想象有 A、B、C 三个 阅读全文
摘要:
目录 什么是k近邻算法 模型的三个基本要素 构造kd树 kd树的最近邻搜索 kd树的k近邻搜索 Python代码(sklearn库) 什么是K近邻算法(k-Nearest Neighbor,kNN) 引例 假设有数据集,其中前6部是训练集(有属性值和标记),我们根据训练集训练一个KNN模型,预测最后 阅读全文
摘要:
目录 一元线性回归、多元线性回归、Logistic回归、广义线性回归、非线性回归的关系 什么是极大似然估计 逻辑斯谛回归(Logistic回归) 多类分类Logistic回归 Python代码(sklearn库) 一元线性回归、多元线性回归、逻辑斯谛回归、广义线性回归、非线性回归的关系 通过上图(插 阅读全文