随笔分类 -  算法梳理

摘要:1.信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 熵:香农用信息熵的概念来描述信源的不确定度,变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。 联合熵:联合熵表征了两事件同时发生系统的不确定度。 条件熵 :设有随机变量(X,Y),其联合概率分布为 p(X=x,Y= yi) 阅读全文
posted @ 2019-08-11 20:53 Robin_D 阅读(302) 评论(0) 推荐(0) 编辑
摘要:1、逻辑回归与线性回归的联系与区别 联系 逻辑回归与线性回归都属于广义线性回归模型 区别 因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归。logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是 阅读全文
posted @ 2019-08-09 19:06 Robin_D 阅读(716) 评论(0) 推荐(0) 编辑
摘要:1.机器学习的一些概念 有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证 有监督:数据集有有已知的y值(label 结果) 无监督:数据集中没有y值,需要根据近似性关系分成一簇一簇的聚类来当作y值来评估 泛化能力:指算法对具有同一规律的学习集以外的数据,的适用程度,对其 阅读全文
posted @ 2019-08-07 19:11 Robin_D 阅读(267) 评论(0) 推荐(0) 编辑