2011 年 4月 18 日随笔档案 - JerryLead

2011年4月18日

主成分分析（Principal components analysis）-最小平方误差解释

摘要：接上篇3.2 最小平方误差理论假设有这样的二维样本点（红色点），回顾我们前面探讨的是求一条直线，使得样本点投影到直线上的点的方差最大。本质是求直线，那么度量直线求的好不好，不仅仅只有方差最大化的方法。再回想我们最开始学习的线性回归等，目的也是求一个线性函数使得直线能够最佳拟合样本点，那么我们能不能认为最佳的直线就是回归后的直线呢？回归时我们的最小二乘法度量的是样本点到直线的坐标轴距离。比如这个问题中，特征是x，类标签是y。回归时最小二乘法度量的是距离d。如果使用回归方法来度量最佳直线，那么就是直接在原始样本上做回归了，跟特征选择就没什么关系了。因此，我们打算选用另外一种评价直线好坏的方法，阅读全文

posted @ 2011-04-18 21:19 JerryLead 阅读(42543) 评论(10) 推荐(10) 编辑

主成分分析（Principal components analysis）-最大方差解释

摘要：在这一篇之前的内容是《Factor Analysis》，由于非常理论，打算学完整个课程后再写。在写这篇之前，我阅读了PCA、SVD和LDA。这几个模型相近，却都有自己的特点。本篇打算先介绍PCA，至于他们之间的关系，只能是边学边体会了。PCA以前也叫做Principal factor analysis。1. 问题真实的训练数据总是存在各种各样的问题：1、比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速度特征，显然这两个特征有一个多余。2、拿到一个数学系的本科生期末考试成绩单，里面有三列，一列是对数学的兴趣程度，一列是复习时间，还有一列是考. 阅读全文

posted @ 2011-04-18 21:11 JerryLead 阅读(177142) 评论(36) 推荐(51) 编辑

在线学习（Online Learning）

摘要：原题目叫做The perception and large margin classifiers，其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习（batch learning），就是给了一堆样例后，在样例上学习出假设函数h。而在线学习就是要根据新来的样例，边学习，边给出结果。假设样例按照到来的先后顺序依次定义为。X为样本特征，y为类别标签。我们的任务是到来一个样例x，给出其类别结果y的预测值，之后我们会看到y的真实值，然后根据真实值来重新调整模型参数，整个过程是重复迭代的过程，直到所有的样例完成。这么看来，我们也可以将原来用于批量学习的样例拿来作为在线学习的样例。在在线学习. 阅读全文

posted @ 2011-04-18 20:20 JerryLead 阅读(37129) 评论(3) 推荐(2) 编辑