随笔分类 - 机器学习
摘要:机器学习-泛化能力的评价指标 机器学习-感知机 机器学习-k 近邻法 机器学习-朴素贝叶斯法 机器学习-逻辑回归 机器学习-最大熵模型 机器学习-主成分分析(PCA) 机器学习-决策树 决策树-ID3、C4.5 决策树-CART 分类树 决策树-CART 回归树 决策树后剪枝 机器学习-支持向量机
阅读全文
摘要:中文文档:Voting Classifier 1. Voting Classifier 原理 即用于分类的投票机制,分为硬投票和软投票。 voting = 'hard':硬投票。表示预测的类标签进行多数投票决定。 voting = 'soft':软投票。
阅读全文
摘要: 官网中的 GridSearchCV。 机器学习模型中,需要人工选择的参数称为超参数。 可以拆分为两部分,即网格搜索、交叉验证。 是一种调参手段,穷举搜索,即在所有候选的参数中,通过循环
阅读全文
摘要:支持向量机(一)线性可分支持向量机 支持向量机(二)线性支持向量机 支持向量机(三)非线性支持向量机与核函数 支持向量机(四)SMO算法 序列最小最优化()算法是 的快速实现算法。 算法
阅读全文
摘要:1. 概述 加权移动平均法,是对观察值分别给予不同的权数,按不同的权数求得移动平均值。并以最后的移动平均值为基础,确定预测值的方法。采用加权移动平均法,是因为观察期的近期观察值对预测有较大影响,它更能反映近期变化的趋势。 指数加权移动平均法(Exponentially Weighted Moving
阅读全文
摘要:Apriori算法用来找出频繁出现的数据集合。 1. 频繁项集的评估标准 常用的频繁项集的评估标准有支持度、置信度、提升度三个。 支持度:几个关联数据在数据集中出现的次数占总数据集的比重。或者说几个关联数据出现的概率。 比如两个想分析关联性的数据X和Y,则支持度为: 以此类推,三个想分析关联性的数据
阅读全文
摘要:1.概要 sklearn.preprocessing.OneHotEncoder,将类别变量、顺序变量转化为二值化的标志变量。 2. 解析 格式: OneHotEncoder(n_values=’auto’, categorical_features=’all’, dtype=<class ‘num
阅读全文
摘要:朴素贝叶斯(Nave Bayes)法是基于贝叶斯定理与特征条件独立假设的分类算法。它的思想可以概括为先验概率+数据=后验概率。 1.朴素贝叶斯模型 下面是分类模型样本: 假设有m个样本,每个样本有n个特征,特征输出有K个类别,定义为 从样本得到朴素贝叶斯的先验分布, 接着得到条件概率分布, 然后用贝
阅读全文
摘要:1. 前言 判别式模型:只有一个模型,把测试数据往里一丢,结果就出来了。如 SVM。 生成式模型:有多个模型(一般有多少类就有多少个),把测试数据丢到各个模型里面,最后比较结果,选择最优的最为结果。如 朴素贝叶斯。 2.基本概念 判别模型,就是判别(数据输出量)的模型。 生成模型,就是生成(数据的分
阅读全文
摘要:交叉检验原理 使用交叉检验最简单的方法是在估计器上调用cross_val_score函数。 下面示例展示如何通过分割数据,拟合模型和计算连续5次的分数(每次不同分割)来估计linear Kernel支持向量机在iris数据集上的精度: from sklearn.model_selection imp
阅读全文
摘要:1. sklearn中的Pipeline机制 管道机制在机器学习算法中的应用:参数集在新数据集(比如测试集)上的重复使用。 管道机制实现流式化封装和管理。 2. 加载数据集并拆分 import pandas as pd from sklearn.pipeline import Pipeline fr
阅读全文
摘要:DBSCAN是密度聚类算法,和K-Means,BIRCH只适用于凸样本集的聚类相比,DBSCAN既适用于凸样本集,也适用于非凸样本集。 1. 密度聚类原理 DBSCAN算法指类别可通过样本分布的紧密程度决定。即同一类别的样本紧密相连,也就是说在该类别的不远处一定有同类别的样本。 2. DBSCAN密
阅读全文
摘要:特征选择(1) 在sklearn.feature_selection模块中,可以对样本集进行特征选择(feature selection)和降维(dimensionality reduction),这样会提高估计器的准确度或者增强在高维数据集上的性能。 1. 移除低方差特征 VarianceThre
阅读全文
摘要:集成学习 随机森林 AdaBoost 算法 提升树 梯度提升树(GBDT) XGBoost 一、提升树 提升树是以 回归树为基本分类器的提升方法。 提升方法采用加法模型(即基函数的线性组合)与前向分步算法。 1. 提升树模型 提升树模型可以表示为决策树的加法模型: $$ \tag{13
阅读全文
摘要:集成学习 Bagging 与随机森林 Boosting 与 AdaBoost 算法 提升树 梯度提升树(GBDT) XGBoost 目录一、XGBoost 简介二、XGBoost 原理1. 从目标函数开始,生成一棵树1.1 学习第 t 颗树1.2 XGBoost 的目标函数1.3 泰勒公式展开1.4
阅读全文
摘要:集成学习 随机森林 AdaBoost 算法 提升树 梯度提升树(GBDT) XGBoost 在 系列算法中,最具代表的是 算法。该算法即可用于分类,也可用于回归。 一、AdaBoost 分类算法 假设二分类训练集 \[ T=\{(x_1,y_1),
阅读全文
摘要:支持向量机(一)线性可分支持向量机 支持向量机(二)线性支持向量机 支持向量机(三)非线性支持向量机与核函数 支持向量机(四)SMO算法 一、核技巧 1.非线性分类问题 如图 ,无法用直线(线性模型)将正实例点 “●”、负实例点 “×” 正确分开,但可用一条椭圆曲线(非线性模型)将其分
阅读全文
摘要:sklearn.feature_extraction.DictVectorizer:将字典组成的列表转换成向量。(将特征与值的映射字典组成的列表转换成向量) 1. 特征矩阵行代表数据,列代表特征,0表示该数据没有该特征 [[ 2. 0. 1.] [ 0. 1. 3.]] [[ 2. 0. 1.] [
阅读全文