摘要:
集成学习(ensemble learning) 集成学习通过构建多个个体学习器,然后再用某种策略将他们结合起来,产生一个有较好效果的强学习器来完成任务。基本原理如下图所示。这里主要有三个关键点:个体学习器的同质异质、个体学习器的生成方式、结合策略。 同质异质 。首先需要明确的是个体学习器至少不差于弱 阅读全文
摘要:
一 SVM参数 二 高斯核调参 阅读全文
摘要:
前面都只是讨论了向量机的最终形式以及推导过程,但是最终形式的求解没有给出。有许多最优化算法可以用于问题求解,但是当训练样本容量很大时,这些算法往往变得非常低效,以致无法使用。而SMO算法便是一种便捷高效算法。其实理清思路后,原理很好理解。避免麻烦直接贴图片。 参考: 李航《统计学习方法》 周志华《机 阅读全文
摘要:
线性支持向量机 首先我们给出下面两种情况,如图所示。 第一种数据线性可分,那么肯定存在唯一的超平面将样本完全分开,并满足间隔最大化,此时分类器就是上一篇中的 线性可分支持向量机 。但是现实情况中完全线性可分情况很少。 第二种数据中,由于蓝绿两个样本的存在,实际上根本不可能存在一个超平面(二维中为直线 阅读全文
摘要:
原理 SVM基本模型是定义在特征空间上的二分类线性分类器(可推广为多分类),学习策略为间隔最大化,可形式化为一个求解凸二次规划问题,也等价于正则化的合页损失函数的最小化问题。求解算法为序列最小最优化算法(SMO) 当数据集线性可分时,通过硬间隔最大化,学习一个线性分类器;数据集近似线性可分时,即存在 阅读全文
摘要:
参数解析 参数| DecisionTreeClassifier |DecisionTreeRegressor : :|: |: 特征选择标准criterion|可以使用"gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一般说使用默认的基尼系数"gini"就可以了,即CART算法 阅读全文
摘要:
决策树是一种基本的分类与回归方法。以分类为例,可以认为是if then规则的集合,也可以认为是定义在特征空间与类别空间上的条件概率分布。一般分为三个步骤:特征选择,决策树生成,决策树剪枝。 熵与条件熵 熵是度量随机变量不确定性(集合不纯度)的一种指标。$X$是一个取有限个值得离散随机变量,其概率分布 阅读全文
摘要:
为了清楚方便,把两者分开。其实如果不需要分工协作的话,单单Git就可以满足个人工作需要,然后在GitHub上学习开源的项目。当然有项目需要多人分工,需要两者结合使用。 Git 下载客户端,安装 在本地某盘新建文件夹,文件夹内,右键“Git ”Bash Here",出现一个终端窗口。输入"git in 阅读全文
摘要:
一 逻辑回归 线性回归虽然简单,却有丰富的变化。其形式如下(为书写方便,偏置写进权重向量):$$y=\mathbf{w^Tx}$$考虑单调可微函数$g$,令$g(y)=\mathbf{w^Tx}$,在形式上仍然是线性回归,但实质上是在求取输入空间到输出空间的非线性函数映射,其中$y=g^{ 1}(\ 阅读全文
摘要:
一 线性模型 给定由n个属性描述的 列向量 $f(\mathbf{x})={(x^{(1)};x^{(2)};...;x^{(n)})}$,其中 $x^{(j)}$是$\textbf{x}$在第$j$个属性的取值。线性模型即为通过对属性进行线性组合的函数,即 $$f(\mathbf{x})=w_0+ 阅读全文
摘要:
一 高斯朴素贝叶斯分类器代码实现 网上搜索不调用sklearn实现的朴素贝叶斯分类器基本很少,即使有也是结合文本分类的多项式或伯努利类型,因此自己写了一遍能直接封装的高斯类型NB分类器,当然与真正的源码相比少了很多属性和方法,有兴趣的可以自己添加。代码如下(有详细注释): 对于手动实现的高斯型NB分 阅读全文
摘要:
一 理论基础 对于分类任务来说,贝叶斯决策论在所有相关概率已知的理想情况下,考虑如何基于这些概率和误判损失来选择最优的类别标记。下面推导其基本原理,$X$为输入空间上的随机向量,$Y$为输出空间上的随机变量,选择0 1损失函数,:$$\mathit{L}(Y,f(X))=\left\{\begin{ 阅读全文
摘要:
一 利用KNN进行对象匹配 某个在线约会网站对于注册用户推荐不同的对象,某个用户把他们分为不喜欢的人,喜欢的人,非常喜欢的人。现在希望通过之前一段时间此用户划分的对象数据,进行分析。然后自动判别新的对象是否为该用户所喜欢。 收集数据。关于此用户的数据存放在某个文本文件中。 准备数据。收集的数据主要包 阅读全文
摘要:
一 理论基础 $k$近邻法是一种基本地分类与回归算法,属于判别模型。没有学习策略,不具备显式学习过程。本文主要讨论分类问题。 原理:给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的$k$个点,这$k$个点的多数属于某个类,就把输入实例归为这个类。 三个基本要素:$k$值得选择 阅读全文