机器学习基石 - 随笔分类 - 牧马人夏峥

Coursera台大机器学习技法课程笔记15-Matrix Factorization

摘要：很多ML模型用的都是数值特征，那么对于分类特征，该怎么做呢？以linear network为例：先对特征进行转换，转换成有意义的特征后，再对其进行线性组合进一步，模型可表示为：使Ein最小，我们就能知道如何转换特征，如何组合线性模型。以给电影打分为例，我们实际上要做的，就是... 阅读全文

posted @ 2015-08-07 16:11 牧马人夏峥阅读(256) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记14-Radial Basis Function Network

摘要：将Radial Basis Function与Network相结合。实际上衡量两个点的相似性：距离越近，值越大。将神经元换为与距离有关的函数，就是RBF Network：可以用kernel和RBF来衡量相似性：那么... 阅读全文

posted @ 2015-08-06 16:03 牧马人夏峥阅读(467) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记13-Deep Learning

摘要：深度学习面临的问题和现在解决的办法：简要来说，分两步使用DL：初始化时一层一层的选择权重，而后再进行训练：那么怎么做pre-training，即怎么选择权重呢？好的权重能够不改变原有资料的信息，即编码过后信息够解码过后仍能保持 ... 阅读全文

posted @ 2015-08-05 20:08 牧马人夏峥阅读(344) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记12-Neural Network

摘要：由perceptron线性组成的一个神经网络：通过赋予g不同的权值，来实现不同的切分功能：但有的切分只通过一次特征转换是不够的，需要多次转换，如下：Neural Network Hypothesis：为了便于优化，将sign（离散）变成tanh，这个函数相当于regression的拉伸与... 阅读全文

posted @ 2015-08-04 17:37 牧马人夏峥阅读(312) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记11-Gradient Boosted Decision Tree

摘要：将Adaboost和decision tree相结合，需要注意的地主是，训练时adaboost需要改变资料的权重，如何将有权重的资料和decision tree相结合呢？方法很类似于前面讲过的bagging，通过采样资料来使资料获得不同的权重。一棵完全的树的权值... 阅读全文

posted @ 2015-08-03 21:59 牧马人夏峥阅读(1149) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记10-Random forest

摘要：随机森林就是要将这我们之前学的两个算法进行结合：bagging能减少variance（通过g们投票），而decision tree的variance很大，资料不同，生成的树也不同。为了得到不同的g，除了用bootstrap用不同的资料得到不同的g外，还可以采用随即选择特征的方式... 阅读全文

posted @ 2015-08-02 16:57 牧马人夏峥阅读(357) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记09-Decision Tree

摘要：这是我们已经学到的（除Decision Tree外）下面是一个典型的decision tree算法，有四个地方需要我们选择：接着介绍了一个CART算法：通过decision stump分成两类，衡量子树的标准是，将数据分成两类后，这两类数据的纯度... 阅读全文

posted @ 2015-07-31 20:36 牧马人夏峥阅读(237) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记08-Adaptive Boosting

摘要：将分类器组合的过程中，将重点逐渐聚焦于那些被错分的样本点，这种做法背后的数学原因，就是这讲的内容。在用bootstraping生成g的过程中，由于抽样对不同的g就生成了不同的u，接下来就是不断的调整u，使得Ein最小。 g越不同，通过... 阅读全文

posted @ 2015-07-28 16:51 牧马人夏峥阅读(288) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记07-Blending and Bagging

摘要：这一节讲如何将得到的feature或hypothesis组合起来用于预测。 1. 林老师给出了几种方法在选择g时，需要选择一个很强的g来确保Eval最小，但如果每个g都很弱该怎么办呢这个时候可以选择Aggregation的方式将这些若g组合起来，组合起来的G，既能fea... 阅读全文

posted @ 2015-07-27 16:20 牧马人夏峥阅读(441) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记05-Kernel Logistic Regression

摘要：这一节主要讲的是如何将Kernel trick 用到 logistic regression上。从另一个角度来看soft-margin SVM，将其与 logistic regression进行对比，发现可将 SVM看作一个正则化模型：将SVM看作一个regularize model，是为了更好阅读全文

posted @ 2015-07-23 16:27 牧马人夏峥阅读(452) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记04-Soft-Margin Support Vector Machine

摘要：之前的SVM非常的hard，要求每个点都要被正确的划分，这就有可能overfit，为此引入了Soft SVM，即允许存在被错分的点，将犯的错放在目标函数中进行优化，非常类似于正则化。将Soft SVM进行对偶转化后，发现与之前的hard SVM非常的像，只是其中一个系数多了个上界。通过对阿尔法阅读全文

posted @ 2015-07-21 14:50 牧马人夏峥阅读(197) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记03-Kernel Support Vector Machine

摘要：这一节讲的是核化的SVM，Andrew Ng的那篇讲义也讲过，讲的也不错。首先讲的是kernel trick，为了简化将低维特征映射高维特征后的计算，使用了核技巧。讲义中还讲了核函数的判定，即什么样的函数K能使用kernel trick。此外，核函数还可以衡量两个特征的相似度，值... 阅读全文

posted @ 2015-07-20 20:21 牧马人夏峥阅读(203) 评论(0) 推荐(0) 编辑

Coursera台大机器学习技法课程笔记01-linear hard SVM

摘要：极其淡腾的一学期终于过去了，暑假打算学下台大的这门机器学习技法。第一课是对SVM的介绍，虽然之前也学过，但听了一次感觉还是很有收获的。这位博主总结了个大概，具体细节还是要听课：http://www.cnblogs.com/bourneli/p/4198839.html 这位博主总结的很详细：ht 阅读全文

posted @ 2015-07-17 11:42 牧马人夏峥阅读(410) 评论(0) 推荐(0) 编辑

台大《机器学习基石》课程感受和总结---Part 2 （转）

摘要：转自：http://blog.sina.com.cn/s/blog_641289eb0101e2ld.htmlPart 2总结一下一个粗略的建模过程：首先，弄清楚问题是什么，能不能用机器学习的思路去考虑：是否有pattern？是否规则不明确？是否有数据？如果可以用，那么考虑，问题的学习目标是什么，有... 阅读全文

posted @ 2015-07-16 19:10 牧马人夏峥阅读(282) 评论(0) 推荐(0) 编辑

台大《机器学习基石》课程感受和总结---Part 1(转)

摘要：期末终于过去了，看看别人的总结：http://blog.sina.com.cn/s/blog_641289eb0101dynu.html接触机器学习也有几年了，不过仍然只是个菜鸟，当初接触的时候英文不好，听不懂课，什么东西都一知半解。断断续续的自学了一些公开课和书以后，开始逐渐理解一些概念。据说，心... 阅读全文

posted @ 2015-07-16 19:05 牧马人夏峥阅读(1620) 评论(0) 推荐(0) 编辑

Coursera台大机器学习课程笔记15 -- Three Learning Principles

摘要：这节课是最后一节，讲的是做机器学习的三个原则。第一个是Occan's razor，即越简单越好。接着解释了什么是简单的hypothesis，什么是简单的model。关于为什么越简单越好，林老师从大致思想上进行了解释：如果一个简单的模型能对数据分得很好，那说明输入的资料是有规律的资料（这被... 阅读全文

posted @ 2015-06-30 15:35 牧马人夏峥阅读(207) 评论(0) 推荐(0) 编辑

Coursera台大机器学习课程笔记14 -- Validation

摘要：这节课是接着上节的正则化课程的，目的也是为了防止overfitting。第一小节讲了模型的选择，前面讲了很多模型，那么如何做出正确的选择呢？我们的目标是选择最小的Eout目标函数。首先应避免视觉化选择，因为高维。假如选Ein最小的化，则会出现过拟合。虽然能用test数据选择最好的，但通常... 阅读全文

posted @ 2015-06-30 11:29 牧马人夏峥阅读(188) 评论(0) 推荐(0) 编辑

Coursera台大机器学习课程笔记13 -- Regularization

摘要：这一节讲的是正则化，在优化中一直会用到正则化项，上课的时候老师一句话代过，没有作过多的解释。听完这节课后，才明白好大学和野鸡大学的区别有多大。总之，这是很有收获的一节课。首先介绍了为什么要正则化，简单说就是将复杂的模型用简单的模型进行表示，至于如何表示，这中间有一系列推导假设，很有创意。 ... 阅读全文

posted @ 2015-06-30 09:36 牧马人夏峥阅读(213) 评论(0) 推荐(0) 编辑

Coursera台大机器学习课程笔记12 -- Hazard of Overfitting

只有注册用户登录后才能阅读该文。

posted @ 2015-06-28 15:55 牧马人夏峥阅读(7) 评论(0) 推荐(0) 编辑

Coursera台大机器学习课程笔记11 -- Nonlinear Transformation

摘要：这一节讲的是如何将线性不可分的情况转为非线性可分以及转换的代价。特征转换是机器学习的重点。最后得出重要的结论是，在做转换时，先从简单模型，再到复杂模型。参考：http://www.cnblogs.com/ymingjingr/p/4340977.html 阅读全文

posted @ 2015-06-27 19:38 牧马人夏峥阅读(131) 评论(0) 推荐(0) 编辑

牧马人夏峥

随笔分类 - 机器学习基石

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论