百度文库机器学习第二节note linear regression - madao_00191980

山顶的存在并不是让你感到自己的渺小，而是作为一个努力的目标存在的。如果有时间在山路上休息的话，还不如一步一步继续往上攀登，即使很慢也不要紧，一步一步的，像乌龟一样踏实地，虽然不一定能到达顶峰，也有可能在途中就用尽力气，但是你在那里看到的景色肯定要比现在的美丽的多！from 银魂

从小事做起，将学习融入生活的每一天，反复的一点一点的积累才是最重要，了解和熟悉数据挖掘，为能从事数据挖掘工作做准备！

机器学习第二节note

1、给你一些数据training data，怎么用它们来拟合曲线？

我首先想到的是随便从其中拿出两点，就能确定一条直线，或者3个点就能确定一个2次曲线，但显然不是这么做的。

此处介绍的是线性最小二乘法。线性指对参数线性，自变量可以是non-linear。

对于参数的确定，用的是min{(观测的解-预测的解)^2}

注：这里用平方，不用绝对值，是因为平方光滑，计算方便。

2、统计模型（statistic model）中的噪声，为什么假设它是服从正态分布的？对于非正态分布的噪声（比如heavy tail），选用什么模型呢？

这里想到的问题是：

2.1怎么产生一个服从高斯分布的噪声？如下有个构造方法(其中的生成公式没弄懂，需要再研究一下)

2.2怎么验证一个分布是否是高斯分布？

Matlab中有很多函数：jbtest(Jarque-Bera hypothesis test),lillietest,kstest 。还有一些专用的方法，如偏度峰度检验法和
W检验法。这些方法了解一下！

3、如果residue plot 的图形还是有些pattern的话（即不random），说明建的模型是可以refinement的。

怎么改善呢？这里是在模型中再增加feature项，比如加平方项或分段线性项，这个的准则是什么？

4、，求解的依据是min点是极值点，一阶偏导数=0.这只是一个必要条件。

补充问题

4.1对于add二阶偏导判断是极大还是极小值的方法？需要学习矩阵正定和特征值！

4.2还有一个自然的问题就是X^TX不可逆，或者稀疏时，怎么处理？

4.3此处是数关于向量求导，一般的矩阵关于矩阵求导的形式是怎样的呢？

5、文中提到的equal variance 指的是什么意思？

6、方差的计算公式是除以n-p,可以结合自由度来理解一下。一般建的模型是overfitting 的，故residue要比实际的noise要小。

7、带权值的最小二乘回归，即越不可靠的点（方差越大），在建模中越不重要。假设的是xigema是已知的，这个怎么就能预先知道？

8、对于各个feature,它们的重要性是不一样的，怎么衡量一下？有两种方法

8.1 设第j个feature的参数为0，计算F分数，越大越重要

8.2涉及假设检验、t分布，这个没看懂，需要下去了解这些。伽马分布，β分布，三大分布(卡方分布，F分布，t分布)等

8.2大致是说，说明去掉这个feature后，还有p-value这么大的概率能预测到观测值。即p-value越大说明feature越不重要。

发表于 2013-03-31 00:18 madao_00191980 阅读(229) 评论(0) 编辑收藏举报