R-6 线性回归模型流程
本节内容:
0:小知识
1:新数据要如何进行分析
2:第二步骤:理解数据
3:第三步骤:相关分析
4:特殊点
0:小知识
0.1:我们说对分析一个数据一般是分步骤的:那么我们可以对其中的步骤进行打标签,也就是跟书签一样。
Ctrl+Shift+r
0.2: 将图形赋值一个变量后,这个变量其中会有图形的一些信息如y轴x轴频数等信息
plot_draw = plot(,,,,)
0.3:如何查看R的新包 登录R官网-->https://mirrors.tongji.edu.cn/CRAN/
一、新数据要如何进行分析
二、第二步骤:理解数据
统计量:summary(energraw) names(energraw) str(energraw)
可视化:对y的变量进行直方图、箱线图
attach(airquality) par(mfrow=c(1,2)) boxplot(Temp,col = 45) hist(Temp) print(boxplot(Temp,col = 45)) print(hist(Temp))
三、第三步骤:相关分析
3.1:一个一个的做plot
plot(Ozone,Temp,col="tomato",main = "Temp & Ozone") plot(Temp~Ozone,data = airquality) abline(lm(Temp~Ozone,data = airquality)) #添加拟合线 系统对y和x做出的解释是怎么样的
3.2:做相关系数矩阵
library(corrgram) library(mvtnorm) library(kernlab) ##要使用corrgram 需要安装mvtnorm,kernlab corrgram(qq,order = TRUE,lower.panel = panel.shade, upper.panel = panel.pie,text.panel = panel.txt, main="Corrgram of Airquality intercorrelations")
偏相关系数:
#偏相关 我们在研究x1和x2的相关时候,可能会被x3或者其他的变量
#影响到我们对x1和x2的相关系数 ,所以需要对其他的变量进行控制
#控制其他的变量他的影响为0的情况下,x1和x2的相关系数
qq = na.omit(airquality) cc = cor(qq) library(igraph) library(ggm) cc pcor(c(1,2,3,5,6),cc) ##0.3523451 控制其他变量得出的相关 cor(qq$Ozone,qq$Solar.R) ##0.3483417
四、数据建模
4.1 设置训练集 和测试集 两种方式
#第一种方式 qq = na.omit(airquality) train_number = sample(1:nrow(qq),nrow(qq)*0.8) train = qq[train_number,] test = qq[-train_number,] nrow(test) ##22 nrow(train) ##88 ##第二种方式 train_number2= sample(2,nrow(qq),replace = T,prob = c(0.8,0.1)) train_2 = qq[train_number2,] test_2 = qq[-train_number2,]
4.2 数据建模,一元线性回归
with(train,plot(Temp,Ozone)) ##可以画出大概的散点图 runif = lm(train$Temp~train$Ozone,data = train) runif
summary(runif) ##看模型好不一般我们看R方
四、异常点判断
https://zhuanlan.zhihu.com/p/28175779
4.1 离群点判别方法三种
1:做boxplot图
2:学生化残差(studentized residual)
因为该经理想要通过线性回归,来回答广告、定价和销量是否相关的问题,我们也可以通过回归的残差寻找“销量”的特异值。学生化残差是一种标准化的残差,它可以告诉我们哪些数据点的残差较大,超过±3的学生化残差可以被看作可能的离群值。在R软件中,可以使用rstudent()命令计算学生化残差。
3:
library(car) outlierTest(runif)