流影心 - 博客园

2018年9月19日

摘要：集成学习（ensemble learning）集成学习通过构建多个个体学习器，然后再用某种策略将他们结合起来，产生一个有较好效果的强学习器来完成任务。基本原理如下图所示。这里主要有三个关键点：个体学习器的同质异质、个体学习器的生成方式、结合策略。同质异质。首先需要明确的是个体学习器至少不差于弱阅读全文

posted @ 2018-09-19 21:28 流影心阅读(1303) 评论(0) 推荐(1)

2018年9月18日

机器学习：SVM（四）——sklearn参数

摘要：一 SVM参数二高斯核调参阅读全文

posted @ 2018-09-18 14:53 流影心阅读(483) 评论(0) 推荐(0)

2018年9月17日

机器学习：SVM（三）——序列最小最优化（SMO）算法

摘要：前面都只是讨论了向量机的最终形式以及推导过程，但是最终形式的求解没有给出。有许多最优化算法可以用于问题求解，但是当训练样本容量很大时，这些算法往往变得非常低效，以致无法使用。而SMO算法便是一种便捷高效算法。其实理清思路后，原理很好理解。避免麻烦直接贴图片。参考：李航《统计学习方法》周志华《机阅读全文

posted @ 2018-09-17 21:14 流影心阅读(1102) 评论(0) 推荐(0)

机器学习：SVM（二）——线性支持向量机以及非线性支持向量机

摘要：线性支持向量机首先我们给出下面两种情况，如图所示。第一种数据线性可分，那么肯定存在唯一的超平面将样本完全分开，并满足间隔最大化，此时分类器就是上一篇中的线性可分支持向量机。但是现实情况中完全线性可分情况很少。第二种数据中，由于蓝绿两个样本的存在，实际上根本不可能存在一个超平面（二维中为直线阅读全文

posted @ 2018-09-17 17:24 流影心阅读(785) 评论(0) 推荐(0)

2018年9月13日

机器学习：SVM（一）——线性可分支持向量机原理与公式推导

摘要：原理 SVM基本模型是定义在特征空间上的二分类线性分类器（可推广为多分类），学习策略为间隔最大化，可形式化为一个求解凸二次规划问题，也等价于正则化的合页损失函数的最小化问题。求解算法为序列最小最优化算法（SMO）当数据集线性可分时，通过硬间隔最大化，学习一个线性分类器；数据集近似线性可分时，即存在阅读全文

posted @ 2018-09-13 20:26 流影心阅读(1487) 评论(0) 推荐(0)

2018年9月11日

机器学习：决策树（二）——sklearn决策树调参

posted @ 2018-09-11 18:56 流影心阅读(7018) 评论(1) 推荐(1)

2018年9月2日

机器学习：决策树（一）——原理与代码实现

摘要：决策树是一种基本的分类与回归方法。以分类为例，可以认为是if then规则的集合，也可以认为是定义在特征空间与类别空间上的条件概率分布。一般分为三个步骤：特征选择，决策树生成，决策树剪枝。熵与条件熵熵是度量随机变量不确定性（集合不纯度）的一种指标。$X$是一个取有限个值得离散随机变量，其概率分布阅读全文

posted @ 2018-09-02 19:58 流影心阅读(1140) 评论(0) 推荐(0)

2018年8月29日

git与github（总结，非教程,基于Bash而非GUI）

摘要：为了清楚方便，把两者分开。其实如果不需要分工协作的话，单单Git就可以满足个人工作需要，然后在GitHub上学习开源的项目。当然有项目需要多人分工，需要两者结合使用。 Git 下载客户端，安装在本地某盘新建文件夹，文件夹内，右键“Git ”Bash Here"，出现一个终端窗口。输入"git in 阅读全文

posted @ 2018-08-29 19:08 流影心阅读(161) 评论(0) 推荐(0)

2018年8月25日

机器学习：逻辑回归——原理与代码实现

摘要：一逻辑回归线性回归虽然简单，却有丰富的变化。其形式如下（为书写方便，偏置写进权重向量）：$$y=\mathbf{w^Tx}$$考虑单调可微函数$g$,令$g(y)=\mathbf{w^Tx}$,在形式上仍然是线性回归，但实质上是在求取输入空间到输出空间的非线性函数映射，其中$y=g^{ 1}(\ 阅读全文

posted @ 2018-08-25 15:52 流影心阅读(769) 评论(0) 推荐(0)

2018年8月24日

机器学习：线性回归——理论与代码实现（基于正规方程与梯度下降）

摘要：一线性模型给定由n个属性描述的列向量 $f(\mathbf{x})={(x^{(1)};x^{(2)};...;x^{(n)})}$，其中 $x^{(j)}$是$\textbf{x}$在第$j$个属性的取值。线性模型即为通过对属性进行线性组合的函数，即 $$f(\mathbf{x})=w_0+ 阅读全文

posted @ 2018-08-24 18:31 流影心阅读(337) 评论(0) 推荐(0)

机器学习：贝叶斯分类器（二）——高斯朴素贝叶斯分类器代码实现

摘要：一高斯朴素贝叶斯分类器代码实现网上搜索不调用sklearn实现的朴素贝叶斯分类器基本很少，即使有也是结合文本分类的多项式或伯努利类型，因此自己写了一遍能直接封装的高斯类型NB分类器，当然与真正的源码相比少了很多属性和方法，有兴趣的可以自己添加。代码如下（有详细注释）：对于手动实现的高斯型NB分阅读全文

posted @ 2018-08-24 17:54 流影心阅读(1769) 评论(0) 推荐(0)

2018年8月23日

机器学习：贝叶斯分类器（一）——朴素贝叶斯分类器

摘要：一理论基础对于分类任务来说，贝叶斯决策论在所有相关概率已知的理想情况下，考虑如何基于这些概率和误判损失来选择最优的类别标记。下面推导其基本原理，$X$为输入空间上的随机向量，$Y$为输出空间上的随机变量，选择0 1损失函数,：$$\mathit{L}(Y,f(X))=\left\{\begin{ 阅读全文

posted @ 2018-08-23 19:46 流影心阅读(1483) 评论(0) 推荐(2)

2018年8月21日

机器学习：kNN算法（二）—— 实战：改进约会网站的配对效果

摘要：一利用KNN进行对象匹配某个在线约会网站对于注册用户推荐不同的对象，某个用户把他们分为不喜欢的人，喜欢的人，非常喜欢的人。现在希望通过之前一段时间此用户划分的对象数据，进行分析。然后自动判别新的对象是否为该用户所喜欢。收集数据。关于此用户的数据存放在某个文本文件中。准备数据。收集的数据主要包阅读全文

posted @ 2018-08-21 20:39 流影心阅读(363) 评论(0) 推荐(0)

机器学习：kNN算法（一）—— 原理与代码实现（不调用库）

摘要：一理论基础 $k$近邻法是一种基本地分类与回归算法，属于判别模型。没有学习策略，不具备显式学习过程。本文主要讨论分类问题。原理：给定一个训练数据集，对于新的输入实例，在训练数据集中找到与该实例最邻近的$k$个点，这$k$个点的多数属于某个类，就把输入实例归为这个类。三个基本要素：$k$值得选择阅读全文

posted @ 2018-08-21 18:45 流影心阅读(773) 评论(0) 推荐(0)

公告