黎明程序员

2017年12月9日

摘要：目录什么是支持向量机(SVM) 线性可分数据集的分类线性可分数据集的分类(对偶形式) 线性近似可分数据集的分类线性近似可分数据集的分类(对偶形式) 非线性数据集的分类 SMO算法合页损失函数 Python代码(sklearn库) 什么是支持向量机(SVM) 引例假定有训练数据集，其中，x是阅读全文

posted @ 2017-12-09 15:23 黎明程序员阅读(1517) 评论(0) 推荐(0)

2017年12月8日

【Spark机器学习速成宝典】模型篇01支持向量机【SVM】（Python版）

摘要：目录支持向量机原理支持向量机代码(Spark Python) 支持向量机原理详见博文：http://www.cnblogs.com/itmorn/p/8011587.html 返回目录支持向量机代码(Spark Python) 代码里数据：https://pan.baidu.com/s/1j 阅读全文

posted @ 2017-12-08 17:40 黎明程序员阅读(1929) 评论(0) 推荐(0)

【Spark机器学习速成宝典】基础篇04数据类型（Python版）

摘要：目录 Vector LabeledPoint Matrix 使用C4.5算法生成决策树使用CART算法生成决策树预剪枝和后剪枝应用：遇到连续与缺失值怎么办？多变量决策树 Python代码(sklearn库) Vector 一个数学向量。MLlib 既支持稠密向量也支持稀疏向量，前者表示向量的阅读全文

posted @ 2017-12-08 11:43 黎明程序员阅读(861) 评论(0) 推荐(0)

2017年12月7日

【Spark机器学习速成宝典】基础篇03数据读取与保存（Python版）

摘要：目录保存为文本文件：saveAsTextFile 保存为json：saveAsTextFile 保存为SequenceFile：saveAsSequenceFile 读取hive 保存为文本文件：saveAsTextFile 返回目录保存为json：saveAsTextFile 返回目录保存为阅读全文

posted @ 2017-12-07 15:01 黎明程序员阅读(1273) 评论(0) 推荐(1)

2017年12月6日

【Spark机器学习速成宝典】基础篇02RDD常见的操作（Python版）

摘要：目录引例入门：textFile、collect、filter、first、persist、count 创建RDD的方式：parallelize、textFile 转化操作：map、filter、flatMap、sample、union、intersection、subtract、cartesian 阅读全文

posted @ 2017-12-06 16:41 黎明程序员阅读(1609) 评论(1) 推荐(0)

2017年12月1日

【Spark机器学习速成宝典】基础篇01Windows下spark开发环境搭建（Python版）

摘要：目录安装jdk 安装eclipse 安装PyDev插件配置Spark 配置Hadoop Python代码配置Spark 下载Spark http://spark.apache.org/downloads.html 配置环境变量变量名：SPARK_HOME 变量值：D:\spark （不能有空阅读全文

posted @ 2017-12-01 16:12 黎明程序员阅读(1233) 评论(0) 推荐(1)

2017年11月29日

【机器学习速成宝典】模型篇06决策树【ID3、C4.5、CART】（Python版）

摘要：目录什么是决策树(Decision Tree) 特征选择使用ID3算法生成决策树使用C4.5算法生成决策树使用CART算法生成决策树预剪枝和后剪枝应用：遇到连续与缺失值怎么办？多变量决策树 Python代码(sklearn库) 什么是决策树(Decision Tree) 引例现有训练阅读全文

posted @ 2017-11-29 10:10 黎明程序员阅读(7829) 评论(0) 推荐(0)

2017年11月27日

【机器学习速成宝典】模型篇05朴素贝叶斯【Naive Bayes】（Python版）

摘要：目录先验概率与后验概率条件概率公式、全概率公式、贝叶斯公式什么是朴素贝叶斯(Naive Bayes) 拉普拉斯平滑(Laplace Smoothing) 应用：遇到连续变量怎么办？(多项式分布，高斯分布) Python代码(sklearn库) 先验概率与后验概率引例想象有 A、B、C 三个阅读全文

posted @ 2017-11-27 20:41 黎明程序员阅读(6848) 评论(0) 推荐(0)

2017年11月26日

【机器学习速成宝典】模型篇04k近邻法【kNN】（Python版）

摘要：目录什么是k近邻算法模型的三个基本要素构造kd树 kd树的最近邻搜索 kd树的k近邻搜索 Python代码(sklearn库) 什么是K近邻算法(k-Nearest Neighbor,kNN) 引例假设有数据集，其中前6部是训练集（有属性值和标记），我们根据训练集训练一个KNN模型，预测最后阅读全文

posted @ 2017-11-26 16:41 黎明程序员阅读(3845) 评论(0) 推荐(0)

2017年11月24日

【机器学习速成宝典】模型篇03逻辑斯谛回归【Logistic回归】（Python版）

摘要：目录一元线性回归、多元线性回归、Logistic回归、广义线性回归、非线性回归的关系什么是极大似然估计逻辑斯谛回归(Logistic回归) 多类分类Logistic回归 Python代码(sklearn库) 一元线性回归、多元线性回归、逻辑斯谛回归、广义线性回归、非线性回归的关系通过上图（插阅读全文

posted @ 2017-11-24 14:27 黎明程序员阅读(5144) 评论(0) 推荐(1)

公告