摘要: 在机器学习中,尤其是回归模型,经常用到梯度下降法和最小二乘法,这里把最小二乘法的原理及代码实现总结处理。 1 最小二乘法原理 首先要清楚,最小二乘法要解决的是什么问题呢?根据前面的线性回归,我们知道线性回归的假设函数: 损失函数: 损失函数计算训练数据集中每一个样本实例的估计值和实际值的平方差并求平 阅读全文
posted @ 2019-09-03 23:01 Christine_7 阅读(1706) 评论(0) 推荐(0) 编辑
摘要: 机器学习中,很多监督学习模型需要构建损失函数,再用优化算法对损失函数进行优化,找到最优参数。常用到的优化算法有梯度下降法和最小二乘法,这里总结梯度下降法。 1 梯度下降原理 梯度下降在求解过程中,只需要求解损失函数的一阶导数,计算代价较小。基本思想:从某一点出发,沿着变化最快的方向前进,到达一个点后 阅读全文
posted @ 2019-09-02 22:57 Christine_7 阅读(769) 评论(0) 推荐(0) 编辑
摘要: 感知机是线性分类模型,其输入是一个实例特征向量,输出是该实例的类别,取+1和 1。而感知机是输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习的目标就是求出将训练数据进行线性划分的分离超平面,导入基于误分类的损失函数,利用梯度下降法对损失函数极小化,求得感知机模型。有一 阅读全文
posted @ 2019-08-31 22:34 Christine_7 阅读(1573) 评论(0) 推荐(1) 编辑
摘要: 既然翻到这里,默认就认为已经基本掌握了Kafka的基础知识,本小结主要给出一次使用Kafka Consumer API的示例。我们都知道Kafka API有旧版(0.8版之前)和新版(0.9版之后),这里讲的是新版,官网 "KafkaConsumer" 有更详细介绍,可自行前往~ 1 环境配置 操作 阅读全文
posted @ 2019-08-30 22:42 Christine_7 阅读(960) 评论(0) 推荐(0) 编辑
摘要: 前面总结了决策树ID3算法(ID3原理及代码实现)和改进版C4.5算法(C4.5原理及代码实现),它们存在一些不如,如只能处理分类不能处理回归存在过拟合等问题。因此,有必要介绍一个新的叫做CART(Classification And Regression Trees,分类回归树)的树构建算法。该算 阅读全文
posted @ 2019-08-30 22:00 Christine_7 阅读(1758) 评论(0) 推荐(0) 编辑
摘要: 上一节( "ID3原理及代码实现" )讲到的ID3算法存在不足,用信息增益作为特征选择标准会偏向取值较多的特征,因为特征的取值越多(该特征数据分的更细)即纯度更高,不确定性(条件熵越小$H(D|A)$)更低,由于$H(D)$是一定的,因此信息增益更大,所以偏向取值更多的特征。使用信息增益比可以矫正这 阅读全文
posted @ 2019-08-29 22:29 Christine_7 阅读(2613) 评论(0) 推荐(0) 编辑
摘要: 决策树是一种基本的分类与回归方法,称之为"树",是因为决策树模型呈树形结构。本小结主要讨论用于分类的决策树,那么决策树是如何从一大堆无序的数据特征中找出有序的规则,并构建决策树呢? 1 信息论知识 回答上面的问题,将一堆无序的数据变得更有序,一种方法是使用信息论度量信息。在划分数据前后,使用信息论量 阅读全文
posted @ 2019-08-28 21:22 Christine_7 阅读(2080) 评论(0) 推荐(0) 编辑
摘要: 朴素贝叶斯是一种简单的分类算法,称它“朴素”是因为,整个形式化过程只做最原始 最简单的假设。朴素贝叶斯的核心思想是:对于待分类项,求解此待分类项在各个类别中出现的概率,哪个类别概率最大,则认为此待分类项就属于那个类别。 朴素贝叶斯是贝叶斯决策理论的一部分 1 朴素贝叶斯原理 1.1 概率论知识 既然 阅读全文
posted @ 2019-08-27 22:53 Christine_7 阅读(689) 评论(0) 推荐(0) 编辑
摘要: 首先要清楚,逻辑回归是一种分类算法。它是在线性回归模型的基础上,使用Sigmoid函数,将线性模型的预测结果转变为离散变量,从而用于处理分类问题。 1 逻辑回归原理 以二分类为例,说明逻辑回归的工作原理。由 "线性回归小结" 基础,不难得出线性回归的假设函数$h_{\theta }^{'}\left 阅读全文
posted @ 2019-08-26 22:40 Christine_7 阅读(955) 评论(0) 推荐(0) 编辑
摘要: 根据输入输出变量的不同类型,对预测任务给予不同的名称:输入变量与输出变量均为连续变量的预测问题称为回归问题,输出变量为有限个离散变量的预测问题称为分类问题,输入变量与输出变量均为变量序列的预测问题称为标注问题。这里对线性回归的原理 算法和代码实现做一个小结。 1 线性回归的原理 回归用于预测输入变量 阅读全文
posted @ 2019-08-23 23:58 Christine_7 阅读(624) 评论(0) 推荐(0) 编辑