摘要: 投票法(voting)是集成学习里面针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。 分类的机器学习算法输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting),使用后者进行分类叫做软投票(So 阅读全文
posted @ 2018-04-10 11:18 小舔哥 阅读(11140) 评论(1) 推荐(0) 编辑
摘要: 特征选择 特征选择是从数据集的诸多特征里面选择和目标变量相关的特征,去掉那些不相关的特征。 特征选择分为两个问题:一个是子集搜索问题,另外一个是子集评价问题。比如将前向搜索和信息熵评价这两种策略进行结合就是决策树算法,事实上决策树算法可以进行特征选择。sklearn当中的“树形”算法的feature 阅读全文
posted @ 2018-04-09 16:39 小舔哥 阅读(3695) 评论(0) 推荐(1) 编辑
摘要: 进行参数的选择是一个重要的步骤。在机器学习当中需要我们手动输入的参数叫做超参数,其余的参数需要依靠数据来进行训练,不需要我们手动设定。进行超参数选择的过程叫做调参。 进行调参应该有一下准备条件: 一个学习器 一个参数空间 一个从参数空间当中寻找参数的方法 一个交叉验证的规则 一个性能评估的策略 下面 阅读全文
posted @ 2018-04-09 09:35 小舔哥 阅读(13004) 评论(0) 推荐(0) 编辑
摘要: 基本的决策树算法 上图是《机器学习》中的图 决策树算法是一个分治的递归算法,递归的终止条件有三种: 第一种:未选择划分属性之前,数据集D的类别属于同一类,这时将它划分为叶节点,类别划分为该类即可。 第二种:属性A为空,或者是数据集D在所有属性A上面取值相同,这时每条数据的值在A上,除了类别,都是一样 阅读全文
posted @ 2018-04-08 21:08 小舔哥 阅读(791) 评论(0) 推荐(0) 编辑
摘要: 先验概率和后验概率 先验概率和后验概率是在条件概率的框架下引出来的 条件概率是这样说的:事件A发生条件下事件B发生的概率为$P(B|A) = \frac{P(AB)}{P(A)}$ 贝叶斯公式是关于事件A和B的条件概率的一则定理:$P(A|B) = \frac{P(B|A) P(A)}{P(B)}$ 阅读全文
posted @ 2018-04-05 22:51 小舔哥 阅读(3347) 评论(0) 推荐(0) 编辑
摘要: 在一个理想的分类当中,我们想要用一个超平面来将正类样本和负类样本划分开来。这个超平面的方程为 $\mathbf{w}^T\mathbf{x}+b=0$ 我们希望这个超平面能够使得划分更加的鲁棒,在图形上表现为超平面正好位于正类样本和负类样本的正中间,运用这种思想,我们引入了svm算法。 为什么正分类 阅读全文
posted @ 2018-03-27 11:13 小舔哥 阅读(1720) 评论(0) 推荐(0) 编辑
摘要: 损失函数的定义 我们以分类问题为例来讨论,假如分类器f,那么对于输入X,输出为f(X)那么,如何衡量这个分类器的好坏,我们用f(X)和真正的Y值进行比较,来衡量分类器f的好坏,这种衡量的标准就是损失函数,损失函数越小,代表分类器的性能越好。 损失函数的输入为f(x)和Y,输出是一个非负实数,记做L( 阅读全文
posted @ 2018-03-27 09:50 小舔哥 阅读(900) 评论(0) 推荐(0) 编辑
摘要: 在sklearn当中,可以在三个地方进行模型的评估 1:各个模型的均有提供的score方法来进行评估。 这种方法对于每一种学习器来说都是根据学习器本身的特点定制的,不可改变,这种方法比较简单。这种方法受模型的影响, 2:用交叉验证cross_val_score,或者参数调试GridSearchCV, 阅读全文
posted @ 2018-03-23 21:40 小舔哥 阅读(5718) 评论(0) 推荐(0) 编辑
摘要: 性能评估是用什么样的方法来评估一个模型的预测质量。来对模型的性能进行评价。 回归问题的评估方法 能够想到的评估方法是均方误差(mean square error),均方误差又叫做平均损失: 学习器f,在数据集 $D=\{(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),…, 阅读全文
posted @ 2018-03-22 17:52 小舔哥 阅读(2927) 评论(0) 推荐(0) 编辑
摘要: 数据可视化可以帮助我们理解数据:查看数据的分布情况,观察有没有异常值,各个变量之间的相关情况。 当我们进行数据可视化的时候,我们要紧紧围绕着这个变量和我们的目标变量之间的关系,在绘制大多数图的时候都要出现目标变量。 连续型数据的可视化: 对于连续的数值类型数据,我们常常使用直方图(histogram 阅读全文
posted @ 2018-03-22 10:02 小舔哥 阅读(1773) 评论(0) 推荐(0) 编辑