征罚性回归zz

1.主成分回归（Principal Component Regression，PCR）

主成分回归是预测变量在主成分上的回归。你可以手动地计算它：

#计算特征值和和特征向量

e <- eigen(cor(x))

#计算主成分

enx <- scale(x) %*% e$vectors

#在新的向量（主成分）上做回归

lm(y ~ enx)

或者更直接计算：

lm(y~princomp(x)$scores)

如果只想要前三个主成分作回归：

lm(y~princomp(x)$scores[,1:3])

解释新的坐标（主成分）很麻烦，但是命今“biplot(princomp(x))”可以帮上忙：

你也可以用独立成分分析（Independant Component Analysis）代替主成分分析(Principal Component Analysis ,PCA),得到独立成分回归（“Independant Component Regression“）。如果你的数据不服从高斯分布，可以参考《Independent variable selection: Application of independent component analysis to forecasting a stock index》

然而，这儿还是存在一点问题：当我们在选择新的基的时候，我们仅仅考虑了自变量x,并没有考虑因变量y，这样一些自变量在PCA（主成分分析）中表面上是无关的，但它有可能和y联系得较紧密；一些自变量在PCA中是很关键的，但它可能和因变量无关。

2.偏最小二乘（Partial Least Squares,PLS)

偏最小二乘主要用来处理这类问题：它是在新基上的回归，类似考虑了因变量的主成分分析：

library(help=pls)
library(pls)
?simpls.fit

在互联网上，你可以从NIPALS（Non-Linearly Iterated Partial Least Squares,非线性偏最小二乘迭代算法）中找到如下的PCA（主成分分析）的算法：

(t=scores, p=loadings)

begin loop

select a proxy t-vector (any large column of X)

small = 10^(-6) (e.g.)

begin loop

p = X'*t

p is normalised to length one: abs(p)=1

t = X*p

end loop if convergence: (t_new - t_old) << small

remove the modelled information from X: X_new = X_old - t*p'

end loop (if all PCs are calculated)

http://www.bitjungle.com/~mvartools/muvanl/

你可以认为PLS是介于经典的多元回归和主成分回归之间，如果经典的线性回归是“0”，主成分回归是“1”，那么PLS就是“0.5”。

PCR和PLS之间的不同，就是因子得分的计算方法不同

PCR：因子从X'X中得出

PLS：因子从Y'XX'Y中得出

下面是PLS包的下载地址：

http://cran.r-project.org/src/contrib/Devel/ http://www.gsm.uci.edu/~joelwest/SEM/PLS.html

library(help="pls.pcr")

3.惩罚最小二乘（Penalized Least Squares）

最小二乘就是构造了一个函数f，并使下式最小化：

但是这样容易产生病态函数。为了使其在一个“好”的范围内求解，我们可以给它加上一项

这里的J(f)增加了函数了复杂度（naughtiness），λ是一个由用户选择的正实数，为了让函数曲线不是很高，可以选择

4.岭回归(Ridge regression)

经典的回归是计算

存在的问题是当数据存在复共线性（multicolinear）的时候，矩阵几乎是奇异（singular）的，会导致最后估计结果的方差非常高。你可以通过变换矩阵的特征值来规避这个问题：

这样会减少估计的方差，但这样的估计是有偏的（biased）,如果减少的方差远远高于增加的估计偏差，MSE（Mean Square Error）减少了，那么新的方法将是有效的。

你可以将岭回归看作是一个惩罚回归，用最小化代替最小化，这样就避免很大的方差。

加入限制条件

问题就变成了选择恰当的k(或s)，使方差较小估计的偏差也较小。你可以通过探索法，作图，证明来选择恰当的参数。

实际上，我们首先可以中心化和标准化X的各列（X中不应当有常数项），你可以自己编程完成：

my.lm.ridge <- function (y, x, k=.1)

{
        my <- mean(y)
        y <- y - my
        mx <- apply(x,2,mean)
        x <- x - matrix(mx, nr=dim(x)[1], nc=dim(x)[2], byrow=T)
        sx <- apply(x,2,sd)
        x <- x/matrix(sx, nr=dim(x)[1], nc=dim(x)[2], byrow=T)
        b <- solve( t(x) %*% x + diag(k, dim(x)[2]), t(x) %*% y) #计算
        c(my - sum(b*mx/sx) , b/sx)
}

或者用惩罚最小二乘的定义：

my.ridge <- function (y,x,k=0)

{
        xm <- apply(x,2,mean)
        ym <- mean(y)
        y <- y - ym
        x <- t( t(x) - xm ) #中心化
        ss <- function (b)

        {
               t( y - x %*% b ) %*% ( y - x %*% b ) + k * t(b) %*% b
        }
        b <- nlm(ss, rep(0,dim(x)[2]))$estimate #非线性最小化
        c(ym-t(b)%*%xm, b)
}
my.ridge.test <- function (n=20, s=.1)

{
        x <- rnorm(n)
        x1 <- x + s*rnorm(n)
        x2 <- x + s*rnorm(n)
        x <- cbind(x1,x2)
        y <- x1 + x2 + 1 + rnorm(n)
        lambda <- c(0, .001, .01, .1, .2, .5, 1, 2, 5, 10)
        b <- matrix(nr=length(lambda), nc=1+dim(x)[2])
        for (i in 1:length(lambda))

        {
                b[i,] <- my.ridge(y,x,lambda[i])
        }
        plot(b[,2], b[,3],
                type="b",
                xlim=range(c(b[,2],1)), ylim=range(c(b[,3],1)))
        text(b[,2], b[,3], lambda, adj=c(-.2,-.2), col="blue")
        points(1,1,pch="+", cex=3, lwd=3)
        points(b[8,2],b[8,3],pch=15)
}
my.ridge.test()

op <- par(mfrow=c(3,3))
for (i in 1:9)

{
my.ridge.test()
}
par(op)

op <- par(mfrow=c(3,3))
for (i in 1:9)

{
my.ridge.test(20,10)
}
par(op)

在R的"MASS"包中有个函数“lm.ridge”，我们可以使用它。

library(MASS)

my.sample <- function (n=20)

{
        x <- rnorm(n)
        x1 <- x + .1*rnorm(n)
        x2 <- x + .1*rnorm(n)
        y <- 0 + x1 - x2 + rnorm(n)
        cbind(y, x1, x2)
}

n <- 500
r <- matrix(NA, nr=n, nc=3)
s <- matrix(NA, nr=n, nc=3)
for (i in 1:n)

{
        m <- my.sample()
        r[i,] <- lm(m[,1]~m[,-1])$coef
        s[i,2:3] <- lm.ridge(m[,1]~m[,-1], lambda=.1)$coef
        s[i,1] <- mean(m[,1])
}

plot( density(r[,1]), xlim=c(-3,3),
main="Multicolinearity: high variance")
abline(v=0, lty=3)
lines(density(r[,2]),col='red')
lines(density(s[,2]),col='red',lty=2)
abline(v=1,col='red',lty=3)

lines(density(r[,3]),col='blue')
lines(density(s[,3]),col='blue',lty=2)
abline(v=-1,col='blue',lty=3)

生成样本数据，默认为n=20行，3列

x1,x2有很强的共线性

生成空矩阵r,s，用来保存后面的计算结果。

r 中每行是作经典线性回归的回归系数
s中每行是作岭回归的回归系数
岭回归中常数项的估计值为

绘制出经典回归和岭回归系数的核密度估计曲线,可以看到两种方法计算出来的回归系数的差别。

下面我们将演示岭回归是有偏的。

......续上面的程序......

evaluate.density <- function (d,x, eps=1e-6)

{
density(d, from=x-eps, to=x+2*eps, n=4)$y[2]
}
x<-mean(r[,2]); points( x, evaluate.density(r[,2],x) )

x<-mean(s[,2]); points( x, evaluate.density(s[,2],x) )

x<-mean(r[,3]); points( x, evaluate.density(r[,3],x) )
x<-mean(s[,3]); points( x, evaluate.density(s[,3],x) )
legend( par("usr")[1], par("usr")[4], yjust=1,
        c("intercept", "x1", "x2"),
        lwd=1, lty=1,
        col=c(par('fg'), 'red','blue') )

legend( par("usr")[2], par("usr")[4], yjust=1, xjust=1,
        c("classical regression", "ridge regression"),
        lwd=1,lty=c(1,2),
        col=par('fg'))

在x附近用4个点估计密度函数。

作出每个估计参数的均值点。

左侧的图例
par("usr")是作图的边界，yjust=1是指相对于y轴右对齐。
c()是说明文字,lwd=1宽度为1,lty指线型
col=当然是颜色了，par('fg')是指默认前景色

我们还可以计算估计量的均值和方差：

#LS regression

> apply(r,2,mean)
[1] 0.01031310 0.91142520 -0.92335369
> apply(r,2,var)
[1] 0.05631858 3.12950890 3.18404170

#Ridge regression
> apply(s,2,mean)
[1] 0.01116668 0.56577249 -0.57728805
> apply(s,2,var)
[1] 0.04901199 1.14735701 1.17649852

但是我们不能用它们来比较两种方法的优劣，我们更宁愿用均方误差的均值（Mean Square Error,MSE）:它是估计的参数的真实值之间差的平方的均值（它与方差的定义差不多，将真实值换为均值就变成了方差。）

> v <- matrix(c(0,1,-1), nr=n, nc=3, byrow=T)
> apply( (r-v)^2, 2, mean )
[1] 0.0563123 3.1310954 3.1835483
> apply((s-v)^2,2,mean)
[1] 0.04903866 1.33361583 1.35283092

我们也可以画出MSE随k变化而变化的过程。

posted on 2011-08-31 14:11 xuq 阅读(287) 评论(0) 编辑收藏举报

刷新页面返回顶部

Life is short

征罚性回归zz

公告

导航