摘要:
CART算法及R语言实现 CART 的英文是Classification And Regression Tree,直译即为分类回归树算法,简称CART算法,它是决策树的一种实现,通常决策树主要有三种实现,分别是 ID3算法、CART算法和C4.5算法。CART算法是一种二分递归分割技术,把当前样本划 阅读全文
摘要:
https://spark.rstudio.com/guides/mlib.html Spark机器学习库 sparklyr提供了Spark分布式机器学习库的绑定。特别是,允许你访问 spark.ml 包提供的机器学习例程。结合 sparklyr的 dplyr 接口,您可以轻松地在 Spark 上创 阅读全文
摘要:
使用spaklyr操作数据 dplyr 是一个 R 包,用于在 R 内部和外部处理结构化数据。dplyr 使 R 用户的数据操作变得简单、一致且高性能。 选择、筛选和聚合数据 使用窗口函数(例如,用于采样) 在上执行联接DataFrames 将数据从 Spark 收集到 R 中 dplyr 中的语句 阅读全文
摘要:
简单线性回归 library(ISLR) library(class) library(MASS) fix(Boston) #弹出数据编辑器 names(Boston) #基本句法是 lm (y ~ x , data) ,其中y是响应变量,x是预测变量,data是这两个变量所属的数据集。 lm.fi 阅读全文
摘要:
逻辑回归:股票市场数据 library(ISLR) names(Smarket) dim(Smarket) summary(Smarket) pairs(Smarket) #pairs()函数用于返回一个绘图矩阵,由每个 DataFrame 对应的散点图组成。 cor(Smarket[,-9]) # 阅读全文
摘要:
主成分分析(parincipal component analysis,PCA) #对 USA ests 数据集进行 PCA, PCA 包肯在基础软件包中。 states=row.names(USArrests) #数据集包含50个州 states #显示50个州的名字 names(USArrest 阅读全文
摘要:
袋装法 #装袋法是随机森林在 m=p 时的一种特殊情况。 因此函数 randomForest() 既可以用来做随机森林,也可以执行装袋法。 library(randomForest) set.seed(1) dim(Boston) bag.boston=randomForest(medv~.,dat 阅读全文
摘要:
主成分回归(principal components regression, PCR) #使用 p1s 库中的 pcr ()渴数实现主成分回归 (PCR) #install.packages("pls") library(pls) set.seed(2) pcr.fit=pcr(Salary~., 阅读全文
摘要:
子集选择方法:最优子集选择 #Hitters (棒球)数据集实践最优于集选择方法 library(ISLR) fix(Hitters) names(Hitters) dim(Hitters) sum(is.na(Hitters$Salary)) Hitters<-na.omit(Hitters) # 阅读全文
摘要:
验证集方法 library(ISLR) set.seed(1) Train<-sample(392,196) #用sample ()函数把观测集分为两半,从原始的 392 个观测中随机地选取一个有 196个观测的子集,作为训练集。 lm.fit<-lm(mpg~horsepower,data=Aut 阅读全文