山顶的存在并不是让你感到自己的渺小,而是作为一个努力的目标存在的。如果有时间在山路上休息的话,还不如一步一步继续往上攀登,即使很慢也不要紧,一步一步的,像乌龟一样踏实地,虽然不一定能到达顶峰,也有可能在途中就用尽力气,但是你在那里看到的景色肯定要比现在的美丽的多!from 银魂

从小事做起,将学习融入生活的每一天,反复的一点一点的积累才是最重要,了解和熟悉数据挖掘,为能从事数据挖掘工作做准备!

机器学习第二节note   

1、给你一些数据training data,怎么用它们来拟合曲线?

我首先想到的是随便从其中拿出两点,就能确定一条直线,或者3个点就能确定一个2次曲线,但显然不是这么做的。

此处介绍的是线性最小二乘法。线性指对参数线性,自变量可以是non-linear。

对于参数的确定,用的是min{(观测的解-预测的解)^2}

注:这里用平方,不用绝对值,是因为平方光滑,计算方便。

2、统计模型(statistic model)中的噪声,为什么假设它是服从正态分布的?对于非正态分布的噪声(比如heavy tail),选用什么模型呢?

这里想到的问题是:

2.1怎么产生一个服从高斯分布的噪声?如下有个构造方法(其中的生成公式没弄懂,需要再研究一下)

http://hi.baidu.com/yuanwenxue/item/a34ea01024f3d7f89d778a14

2.2怎么验证一个分布是否是高斯分布?

Matlab中有很多函数:jbtest(Jarque-Bera hypothesis test),lillietest,kstest 。还有一些专用的方法,如偏度峰度检验法和
W检验法。这些方法了解一下!

http://en.wikipedia.org/wiki/Jarque-Bera_test

3、如果residue plot 的图形还是有些pattern的话(即不random),说明建的模型是可以refinement的。

怎么改善呢?这里是在模型中再增加feature项,比如加平方项或分段线性项,这个的准则是什么

4、 ,求解的依据是min点是极值点,一阶偏导数=0.这只是一个必要条件。

补充问题

4.1对于add二阶偏导判断是极大还是极小值的方法?需要学习矩阵正定和特征值!

4.2还有一个自然的问题就是X^TX不可逆,或者稀疏时,怎么处理?

4.3此处是数关于向量求导,一般的矩阵关于矩阵求导的形式是怎样的呢?

5、文中提到的equal variance 指的是什么意思?

http://en.wikipedia.org/wiki/Homoscedasticity

6、方差的计算公式是除以n-p,可以结合自由度来理解一下。一般建的模型是overfitting 的,故residue要比实际的noise要小。

7、带权值的最小二乘回归,即越不可靠的点(方差越大),在建模中越不重要。假设的是xigema是已知的,这个怎么就能预先知道?

 8、对于各个feature,它们的重要性是不一样的,怎么衡量一下?有两种方法

8.1 设第j个feature的参数为0,计算F分数,越大越重要

8.2涉及假设检验 、t分布,这个没看懂,需要下去了解这些伽马分布,β分布,三大分布(卡方分布,F分布,t分布)等

8.2大致是说,说明去掉这个feature后,还有p-value这么大的概率能预测到观测值。即p-value越大说明feature越不重要。