潇洒的麦兜

统计学习笔记之提升方法

摘要：提升方法的基本思想是由多个弱学习算法出发，反复学习，得到一系列的弱分类器，然后组合这些弱分类器，构成一个强分类器。思考一下，最开始得到的弱分类器其实是误分类较高的分类器，那么为了得到下一个分类器，就必须使被误分类的数据权重增大，被正确分类的数据的权重减小，才会使得一系列的弱分类器组合后的准确度越来越阅读全文

posted @ 2017-06-05 16:23 潇洒的麦兜阅读(159) 评论(0) 推荐(0) 编辑

统计学习笔记之支持向量机

摘要：支持向量机(SVM)是一种二分类模型，跟之前介绍的感知机有联系但也有区别。简单来讲，感知机仅仅是找到了一个平面分离正负类的点，意味着它是没有任何约束性质的，可以有无穷多个解，但是(线性可分)支持向量机和感知机的区别在于，支持向量机有一个约束条件，即利用间隔最大化求最优分离超平面，这时，支持向量机的解阅读全文

posted @ 2017-06-02 22:03 潇洒的麦兜阅读(459) 评论(0) 推荐(0) 编辑

统计学习笔记之逻辑回归

摘要：在分类的问题中，要预测的变量y经常是离散的，如需要预测是正确还是错误，这是一种最基本的二分类。当然，逻辑回归也可以进行多分类，有一种简单的方法是，将其中一类标记为正类，剩余类标记为负类，可以得到正类，再讲另外一个类标记为正类，重复进行既可得到多分类的结果。 LR的常规步骤： 1.寻找假设函数 2.构阅读全文

posted @ 2017-05-23 10:33 潇洒的麦兜阅读(219) 评论(0) 推荐(0) 编辑

raw_input和sys.stdin.readline()

摘要： sys.stdin.readline( )会将标准输入全部获取，包括末尾的'\n'，因此用len计算长度时是把换行符'\n'算进去了的; raw_input( )获取输入时返回的结果是不包含末尾的换行符'\n'的。阅读全文

posted @ 2017-05-18 21:25 潇洒的麦兜阅读(188) 评论(0) 推荐(0) 编辑

统计学习笔记之决策树(二)

摘要： 1.CART分类树的特征选择分类问题中,假设有K个类,样本点属于第k类的概率为,则概率分布的基尼指数定义为: 如果，集合D根据特征A是否取某一可能值a被分割成和，在特征A的条件下,集合D的基尼指数定义为: 基尼指数代表了模型的不纯度,基尼指数越小,不纯度越小,特征越好. 2.CART分类树的生成算阅读全文

posted @ 2017-05-10 10:04 潇洒的麦兜阅读(274) 评论(0) 推荐(0) 编辑

统计学习笔记之决策树(一)

摘要：决策树是常用的机器学习算法，包括特征选择、决策树的生成以及决策树的剪枝。常用的算法有：ID3、C4.5以及CART。 ID3算法中，特征选择的准则是信息增益，即集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。信息增益算法流程：输入：训练数据集D和特征A；输出：特征A对数阅读全文

posted @ 2017-05-09 16:36 潇洒的麦兜阅读(261) 评论(0) 推荐(0) 编辑

统计学习笔记之朴素贝叶斯法

摘要： 1.朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法，是典型的生成学习方法；对于给定的训练数据集，首先是基于特征条件独立假设输入/输出的联合概率分布；然后基于模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。 2.先验概率分布：条件概率分布：于是就得到了联合概率分布，为两者之阅读全文

posted @ 2017-05-08 16:54 潇洒的麦兜阅读(310) 评论(0) 推荐(0) 编辑

平衡二叉树

摘要：对序列（49,38,65,97,76,13,27,50）构造平衡二叉树：步骤在图上已经画出来了，需要说明一点： *当插入76后，49和65的平衡因子都为-2，旋转离76近的，即旋转（65,97,76），并且把中位数放中间。阅读全文

posted @ 2017-05-07 22:08 潇洒的麦兜阅读(376) 评论(0) 推荐(0) 编辑

统计学习笔记之k近邻法

摘要： 1.kNN算法的思想：给定一个训练数据集，对新的输入实例，在训练集中找到与该实例最近邻的k个实例，这k个实例的多数属于某类，就把输入实例分为这个类。 2.算法 (1)根据给定的距离度量，在训练集T中找出与实例x最邻近的k个点，涵盖着k个点的邻域记做; (2)在中根据分类决策规则（如多数表决）决定x的阅读全文

posted @ 2017-05-05 15:27 潇洒的麦兜阅读(123) 评论(0) 推荐(0) 编辑

统计学习笔记之感知机

摘要： 1.感知机是二分类的线性分类模型，输出为实例的类别，取+1和-1二值。 2.感知机属于判别模型。判别模型：判别方法由学习决策函数f(x)或者是条件概率分布P(Y|X)作为预测的模型。生成模型：生成方法由数据联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型。 3.感知机的学阅读全文

posted @ 2017-05-04 14:17 潇洒的麦兜阅读(250) 评论(0) 推荐(0) 编辑