随笔分类 - 0030.机器学习结合大数据
摘要:目录 xgboost原理 xgboost和gbdt的区别 xgboost安装 实战 xgboost原理 xgboost是一个提升模型,即训练多个分类器,然后将这些分类器串联起来,达到最终的预测效果。每一个基分类器都是一个弱分类器,但是很多串联起来后效果很强大。 工作原理: 每次加入一棵新树是为了让目
阅读全文
摘要:目录 集成算法 Bagging模型 随机森林优势 Bagging模型集成 集成算法 目的:让机器学习效果更好,三个凑皮匠顶个诸葛亮的思想。 实现思想有: Bagging:训练多个分类器取平均 Boosting:从弱学习器开始加强,通过加权来进行训练 返回目录 Bagging模型 思想:并行训练一堆分
阅读全文
摘要:目录 前言 CBOW模型与Skip-gram模型 基于Hierarchical Softmax框架的CBOW模型 基于Negative Sampling框架的CBOW模型 负采样算法 结巴分词 word2vec 前言 word2vec当前主流实现有4种:基于Negative Sampling框架和基
阅读全文
摘要:目录 读取数据 索引与计算 数据处理——kaggle泰坦尼克号 读取数据 a.csv name,age,heightTom0,15,156.3Tom1,17,162.6Tom2,12,165.7Tom3,15,134.3Tom4,27,174.5Tom5,56,176.6Tom6,21,172.5T
阅读全文
摘要:目录 数据结构 基础操作 矩阵属性 矩阵操作 矩阵函数 数据结构 返回目录 基础操作 返回目录 矩阵属性 返回目录 矩阵操作 返回目录 矩阵函数 返回目录
阅读全文
摘要:目录 声明变量 类型转换 四则运算 列表List 循环 判断 字典 文件IO 函数 声明变量 返回目录 类型转换 返回目录 四则运算 返回目录 列表List 返回目录 循环 返回目录 判断 返回目录 字典 返回目录 文件IO 返回目录 返回目录 函数 返回目录
阅读全文
摘要:目录 什么是支持向量机(SVM) 线性可分数据集的分类 线性可分数据集的分类(对偶形式) 线性近似可分数据集的分类 线性近似可分数据集的分类(对偶形式) 非线性数据集的分类 SMO算法 合页损失函数 Python代码(sklearn库) 什么是支持向量机(SVM) 引例 假定有训练数据集,其中,x是
阅读全文
摘要:目录 什么是决策树(Decision Tree) 特征选择 使用ID3算法生成决策树 使用C4.5算法生成决策树 使用CART算法生成决策树 预剪枝和后剪枝 应用:遇到连续与缺失值怎么办? 多变量决策树 Python代码(sklearn库) 什么是决策树(Decision Tree) 引例 现有训练
阅读全文
摘要:目录 先验概率与后验概率 条件概率公式、全概率公式、贝叶斯公式 什么是朴素贝叶斯(Naive Bayes) 拉普拉斯平滑(Laplace Smoothing) 应用:遇到连续变量怎么办?(多项式分布,高斯分布) Python代码(sklearn库) 先验概率与后验概率 引例 想象有 A、B、C 三个
阅读全文
摘要:目录 什么是k近邻算法 模型的三个基本要素 构造kd树 kd树的最近邻搜索 kd树的k近邻搜索 Python代码(sklearn库) 什么是K近邻算法(k-Nearest Neighbor,kNN) 引例 假设有数据集,其中前6部是训练集(有属性值和标记),我们根据训练集训练一个KNN模型,预测最后
阅读全文
摘要:目录 一元线性回归、多元线性回归、Logistic回归、广义线性回归、非线性回归的关系 什么是极大似然估计 逻辑斯谛回归(Logistic回归) 多类分类Logistic回归 Python代码(sklearn库) 一元线性回归、多元线性回归、逻辑斯谛回归、广义线性回归、非线性回归的关系 通过上图(插
阅读全文
摘要:目录 什么是线性回归 最小二乘法 一元线性回归 多元线性回归 什么是规范化 Python代码(sklearn库) 什么是线性回归(Linear regression) 引例 假设某地区租房价格只与房屋面积有关,我们现有数据集,请用一条直线尽量去拟合所给的数据,从而达到预测房屋价格的效果。 在引例中,
阅读全文