zhang-X - 博客园

2022年4月22日

摘要： CART算法及R语言实现 CART 的英文是Classification And Regression Tree,直译即为分类回归树算法,简称CART算法，它是决策树的一种实现，通常决策树主要有三种实现，分别是 ID3算法、CART算法和C4.5算法。CART算法是一种二分递归分割技术，把当前样本划阅读全文

posted @ 2022-04-22 14:29 zhang-X 阅读(176) 评论(0) 推荐(0) 编辑

2022年4月15日

Spark机器学习库

摘要： https://spark.rstudio.com/guides/mlib.html Spark机器学习库 sparklyr提供了Spark分布式机器学习库的绑定。特别是，允许你访问 spark.ml 包提供的机器学习例程。结合 sparklyr的 dplyr 接口，您可以轻松地在 Spark 上创阅读全文

posted @ 2022-04-15 16:22 zhang-X 阅读(6674) 评论(0) 推荐(0) 编辑

使用spaklyr操作数据

摘要：使用spaklyr操作数据 dplyr 是一个 R 包，用于在 R 内部和外部处理结构化数据。dplyr 使 R 用户的数据操作变得简单、一致且高性能。选择、筛选和聚合数据使用窗口函数（例如，用于采样）在上执行联接DataFrames 将数据从 Spark 收集到 R 中 dplyr 中的语句阅读全文

posted @ 2022-04-15 14:37 zhang-X 阅读(112) 评论(0) 推荐(0) 编辑

2022年3月13日

简单线性回归、多元线性回归、交互项、预测变量的非线性变换、定性预测变量

摘要：简单线性回归 library(ISLR) library(class) library(MASS) fix(Boston) #弹出数据编辑器 names(Boston) #基本句法是 lm (y ~ x , data) ，其中y是响应变量，x是预测变量，data是这两个变量所属的数据集。 lm.fi 阅读全文

posted @ 2022-03-13 14:43 zhang-X 阅读(893) 评论(1) 推荐(1) 编辑

逻辑回归（Logistic）及案例分析、线性判别分析（LDA）、二次判别分析（QDA）

摘要：逻辑回归：股票市场数据 library(ISLR) names(Smarket) dim(Smarket) summary(Smarket) pairs(Smarket) #pairs（）函数用于返回一个绘图矩阵，由每个 DataFrame 对应的散点图组成。 cor(Smarket[,-9]) # 阅读全文

posted @ 2022-03-13 14:13 zhang-X 阅读(2011) 评论(0) 推荐(0) 编辑

主成分分析（PCA）及案例分析

摘要：主成分分析（parincipal component analysis,PCA） #对 USA ests 数据集进行 PCA， PCA 包肯在基础软件包中。 states=row.names(USArrests) #数据集包含50个州 states #显示50个州的名字 names(USArrest 阅读全文

posted @ 2022-03-13 13:56 zhang-X 阅读(2301) 评论(0) 推荐(0) 编辑

袋装法、随机森林、提升法（回归）

摘要：袋装法 #装袋法是随机森林在 m=p 时的一种特殊情况。因此函数 randomForest() 既可以用来做随机森林，也可以执行装袋法。 library(randomForest) set.seed(1) dim(Boston) bag.boston=randomForest(medv~.,dat 阅读全文

posted @ 2022-03-13 13:37 zhang-X 阅读(763) 评论(1) 推荐(0) 编辑

主成分回归（PCR）和最小二乘回归（PLS）

摘要：主成分回归（principal components regression, PCR） #使用 p1s 库中的 pcr ()渴数实现主成分回归 (PCR) #install.packages("pls") library(pls) set.seed(2) pcr.fit=pcr(Salary~., 阅读全文

posted @ 2022-03-13 12:50 zhang-X 阅读(1919) 评论(0) 推荐(0) 编辑

模型子集选择方法（最优子集选择、向前逐步选择、向后逐步选择、验证集方法、交叉验证法）

摘要：子集选择方法：最优子集选择 #Hitters (棒球)数据集实践最优于集选择方法 library(ISLR) fix(Hitters) names(Hitters) dim(Hitters) sum(is.na(Hitters$Salary)) Hitters<-na.omit(Hitters) # 阅读全文

posted @ 2022-03-13 11:05 zhang-X 阅读(3215) 评论(0) 推荐(0) 编辑

重抽样方法（验证集方法、留一交叉验证法LOOCV、K折交叉验证法）

摘要：验证集方法 library(ISLR) set.seed(1) Train<-sample(392,196) #用sample ()函数把观测集分为两半，从原始的 392 个观测中随机地选取一个有 196个观测的子集，作为训练集。 lm.fit<-lm(mpg~horsepower,data=Aut 阅读全文

posted @ 2022-03-13 10:51 zhang-X 阅读(702) 评论(0) 推荐(0) 编辑

R语言

公告