随笔分类 -  机器学习

摘要:机器学习总结之逻辑回归Logistic Regression 逻辑回归logistic regression,虽然名字是回归,但是实际上它是处理分类问题的算法。简单的说回归问题和分类问题如下: 回归问题:预测一个连续的输出。 分类问题:离散输出,比如二分类问题输出0或1. 逻辑回归常用于垃圾邮件分类,天气预测、疾病判断和广告投放。 一、假设函数 因为是一个分类问题,所以我们希望有一个假... 阅读全文
posted @ 2016-04-14 16:58 HUSTLX 阅读(1952) 评论(0) 推荐(0) 编辑
摘要:一、 马氏距离 我们熟悉的欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。例如,在教育研究中,经常遇到对人的分析和判别,个体的不同属性对于区分个体有着不同的重要性。因此,有时需要采用不同的距离函数。 如果用dij表示第i个样品和第j个样品之间的距离,那么对一切i,j和k,dij应该满足如下四个条件: ①当且仅当i=... 阅读全文
posted @ 2016-03-11 10:58 HUSTLX 阅读(7393) 评论(0) 推荐(0) 编辑
摘要:1.1算法流程 假设有m个samples,每个数据有n维。 1. 计算各个feature的平均值,计μj ;(Xj(i)表示第i个样本的第j维特征的value) μj = Σm Xj(i)/m meanVals = mean(dataMat, axis=0) 2. 将每一个feature scaling:将在不同scale上的feature进行归一化; 3. 将特征进行mean normal... 阅读全文
posted @ 2016-03-11 09:30 HUSTLX 阅读(684) 评论(0) 推荐(0) 编辑
摘要:剪枝 由于悲观错误剪枝 PEP (Pessimistic Error Pruning)、代价-复杂度剪枝 CCP (Cost-Complexity Pruning)、基于错误剪枝 EBP (Error-Based Pruning)、最小错误剪枝 MEP (Minimum Error Pruning)都是用于分类模型,故我们用降低错误剪枝 REP ( Reduced Error Pruning)方法... 阅读全文
posted @ 2016-03-11 09:23 HUSTLX 阅读(1423) 评论(0) 推荐(0) 编辑
摘要:聚类算法 李鑫 2014210820 电子系 1、kmeans算法 1.1Kmeans算法理论基础 K均值算法能够使聚类域中所有样品到聚类中心距离平方和最小。其原理为:先取k个初始聚类中心,计算每个样品到这k个中心的距离,找出最小距离,把样品归入最近的聚类中心,修改中心点的值为本类所有样品的均值,再计算各个样品到新的聚类中心的距离,重新归类,修改新的中心点,直到新的聚类中心和上一... 阅读全文
posted @ 2016-03-10 19:35 HUSTLX 阅读(3554) 评论(0) 推荐(0) 编辑
摘要:1引言 数字识别是模式识别领域 中的一个重要分支,数字识别一般通过特征匹配及特征判别的传统方法进行处理。特征匹配通常适用于规范化的印刷体字符的识别,而 特征判别多用于手写字符识别,这些方法还处于探索阶段,识别率还比较低。随着神经网络技术的飞速发展,其本身具有的高度并行性、较强的自组织能力和容错性、较 阅读全文
posted @ 2016-03-05 20:57 HUSTLX 阅读(15014) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示