随笔分类 -  博客 机器学习

摘要:引言 本文从应用的角度出发,使用Libsvm函数库解决SVM模型的分类与回归问题 首先说明一下实验数据,实验数据是Libsvm自带的heart_sacle,是个mat文件 加载数据集 将mat文件导入MATLAB后会有270*13的实例矩阵变量heart_scale_inst和270*1的标签矩阵heart_scale_label ... 阅读全文
posted @ 2015-05-07 22:54 keedor 阅读(1001) 评论(0) 推荐(0) 编辑
摘要:引言 之前有段时间研究过推荐算法,倒不是科研需要,是觉得很想弄明白每天淘宝的时候那些猜你喜欢的东西是怎么冒出来的,还有最近很火的网易云音乐以及虾米音乐的推荐算法,这里很高兴的就是网易云音乐已经被我调教的很棒了,真开心 后来了解到那些企业做的推荐算法多是混合推荐,而我只了解了基础的三种,不过相信万变不离其宗,很多基础的东西还是很重要的,所以对这三种推荐算法进行了整理,最后因为之前自... 阅读全文
posted @ 2015-04-28 20:56 keedor 阅读(652) 评论(0) 推荐(0) 编辑
摘要:引言 很多时候我们都用到ROC和AUC来评判一个二值分类器的优劣,其实AUC跟ROC息息相关,AUC就是ROC曲线下部分的面积,所以需要首先知道什么是ROC,ROC怎么得来的。然后我们要知道一般分类器会有个准确率ACC,那么既然有了ACC,为什么还要有ROC呢,ACC和ROC的区别又在哪儿,这是我喜欢的一种既生瑜何生亮问题。 最后又简单说明了一下有了ROC之后,为什么... 阅读全文
posted @ 2015-04-28 20:40 keedor 阅读(13942) 评论(1) 推荐(1) 编辑
摘要:引言 之前了解到决策树在选择最好的特征进行数据集的划分就说到这种方法可以用来进行特征选择,然后看了breiman主页上相关的介绍,觉得这不愧是权威啊,不愧是随机森林算法的提出者,讲的很清楚,网址如下 http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm 特征重要性 在随机森... 阅读全文
posted @ 2015-04-28 20:13 keedor 阅读(4107) 评论(0) 推荐(0) 编辑
摘要:引言 随机森林在机器学习实战中没有讲到,我是从伯克利大学的一个叫breiman的主页中看到相关的资料,这个breiman好像是随机森林算法的提出者,网址如下 http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm 随机森林算法简介 随机森林说白了就是很多个决策树组成在一起,就形成了... 阅读全文
posted @ 2015-04-28 20:05 keedor 阅读(2039) 评论(0) 推荐(1) 编辑
摘要:引言 对于SVM的大致原理之前已经讲过了,但是对于公式的推导,很多书都并未做要求,而且在实际应用过程中并未涉及过深,但鉴于台大机器学习课程中讲到了,自己为了巩固自己的学习,也梳理一遍SVM中公式的推导 此处考虑了C,也就是惩罚因子,不再是之前的hard-margin 推导过程 如果是soft-margin,那就说明我们能容忍一些错误,那么目标问题转化为 ... 阅读全文
posted @ 2015-04-28 16:37 keedor 阅读(2939) 评论(0) 推荐(0) 编辑
摘要:引言 自己之前做认证分析的时候,存在一个问题就是需要把一个用户的数据作为合法用户,将其余用户的数据作为非法用户,那么这样的话分类结果就会存在数据偏斜问题,虽然自己采取的方法是从所有非法用户中随机抽取与合法用户样本数差不多的非法样本数输入进分类器,但自己也想了解一下如何解决这种数据偏斜问题,找到的方法记录如下 问题描述 参与分类的两个类别样本数量差异很大,比如说正类有1... 阅读全文
posted @ 2015-04-28 15:11 keedor 阅读(2340) 评论(0) 推荐(0) 编辑
摘要:引言 SVM做二分类问题很简单明了,但是如何用二分类构建多分类问题,自己查找了部分资料,发现普遍分为两种,一种是直接法,直接求解多目标函数优化问题,但这种方法计算量很大,不实用,另外一种是间接法,通过多个二分类来实现多分类,常见的有一对多和一对一两种 最后针对一对一要构建n平方个二分类器,如果n... 阅读全文
posted @ 2015-04-28 15:02 keedor 阅读(7044) 评论(0) 推荐(0) 编辑
摘要:引言 k-Means很早就接触了,大四做本科毕设的时候就用的k-Means,最近从新翻到机器学习实战书中讲到,再结合这几年看到的相关的文章,谈一谈KMeans 算法流程 首先数据集中的每个样本向量可看作高维空间中的一个点 那么我们开始的时候可以从数据集中任意选取K个数据点作为初始类中心,也可以创建符合在数据集范围中的k个质心,注意,这里的k个质心可能不是真实存在的k个... 阅读全文
posted @ 2015-04-27 22:14 keedor 阅读(318) 评论(0) 推荐(0) 编辑
摘要:引言 支持向量机在很多地方都能遇到,主要是用于分类问题,而且简单粗暴,所以也很多人用,但对其深层次原理性的探讨至始至终看到过的资料中觉得林轩田老师讲的非常地到位,另外还有一个参考资料就是v_july_v写的SVM的三重境界,但july写的太多了,可能看起来比较吃力,所以挑选了这些文档以及课程中重要的部分组成此文 本文主要是结合台大机器学习和机器学习实战这本书外加自己之前的一些... 阅读全文
posted @ 2015-04-27 17:12 keedor 阅读(670) 评论(0) 推荐(0) 编辑
摘要:引言 之前学习了逻辑回归,主要是从三方面学习的,一个是coursera上台大林轩田老师机器学习公开课的逻辑回归部分,一个是斯坦福Andrew Ng老师机器学习公开课的逻辑回归部分,另一个是《机器学习实战》逻辑回归部分 前两者主要是对逻辑回归理论的学习,后者主要是实践的学习,现在对其进行整理,也便于自己思考。 本文主要内容 本文主要分为以下内容: ... 阅读全文
posted @ 2015-04-27 09:45 keedor 阅读(1757) 评论(0) 推荐(0) 编辑