03 2022 档案
摘要:简单线性回归 library(ISLR) library(class) library(MASS) fix(Boston) #弹出数据编辑器 names(Boston) #基本句法是 lm (y ~ x , data) ,其中y是响应变量,x是预测变量,data是这两个变量所属的数据集。 lm.fi
阅读全文
摘要:逻辑回归:股票市场数据 library(ISLR) names(Smarket) dim(Smarket) summary(Smarket) pairs(Smarket) #pairs()函数用于返回一个绘图矩阵,由每个 DataFrame 对应的散点图组成。 cor(Smarket[,-9]) #
阅读全文
摘要:主成分分析(parincipal component analysis,PCA) #对 USA ests 数据集进行 PCA, PCA 包肯在基础软件包中。 states=row.names(USArrests) #数据集包含50个州 states #显示50个州的名字 names(USArrest
阅读全文
摘要:袋装法 #装袋法是随机森林在 m=p 时的一种特殊情况。 因此函数 randomForest() 既可以用来做随机森林,也可以执行装袋法。 library(randomForest) set.seed(1) dim(Boston) bag.boston=randomForest(medv~.,dat
阅读全文
摘要:主成分回归(principal components regression, PCR) #使用 p1s 库中的 pcr ()渴数实现主成分回归 (PCR) #install.packages("pls") library(pls) set.seed(2) pcr.fit=pcr(Salary~.,
阅读全文
摘要:子集选择方法:最优子集选择 #Hitters (棒球)数据集实践最优于集选择方法 library(ISLR) fix(Hitters) names(Hitters) dim(Hitters) sum(is.na(Hitters$Salary)) Hitters<-na.omit(Hitters) #
阅读全文
摘要:验证集方法 library(ISLR) set.seed(1) Train<-sample(392,196) #用sample ()函数把观测集分为两半,从原始的 392 个观测中随机地选取一个有 196个观测的子集,作为训练集。 lm.fit<-lm(mpg~horsepower,data=Aut
阅读全文
摘要:PageRank算法 PageRank算法是谷歌搜索引擎的核心算法,该算法是由Larry Page和Sergey Brin在斯坦福大学读研时设计的,PageRank 的核心思想有两点。 ( 1 )如果一个网页被很多其他网页链接,说明这个网页比较重要,也就是PageRank值会相对较高; (2)如果一
阅读全文
摘要:SVM算法的R语言实现 1.SVM分类 (1)标准分类模型 library(e1071) data(iris) attach(iris) model<-svm(Species~.,data=iris) #标准分类模型 (2)多分类模型 #步骤1 数据集准备 x<-subset(iris,select
阅读全文
摘要:naiveBayes(朴素贝叶斯)算法的R语言实现 贝叶斯:在已知类条件概率密度参数表达式和先验概率前提下,利用贝叶斯公式转换成后验概率,最后根据后验概率大小进行决策分类。然而我们要学习的是朴素贝叶斯,朴素贝叶斯一个重要的假设就是变量独立,换句话说就是各个变量间互不影响,a变量的取值不会影响b变量取
阅读全文
摘要:kNN算法应用于iris数据集 K最近邻,顾名思义,就是K个最邻近的样本的意思。如果一个样本的最接近的K个邻居里,绝大多数属于某个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。KNN算法有两个关键点要注意。第一个关键点是K的确定,选择一个最佳的K值取决于数据分布情况。总的来说,较小的K值
阅读全文
摘要:Adaboost算法的R语言实现 具体说来,整个Adaboost迭代算法就3步: ( 1)初始化样本的权重:假如有N个样本,则每一个训练样本最开始时都被赋予相同的权重:1/N。 (2)重复以下步骤,直到达到停机条件:首先训练弱分类器,并不断更新样本权重。权重更新的依据如下:如果某个样本点被正确地分类
阅读全文
摘要:1 EM算法的R语言实现 #步骤1 数据集准备及其描述 library(mclust) mod1<-Mclust(iris[,1:4]) summary(mod1) #步骤2 构建EM算法模型,指定分3类 mod2<-Mclust(iris[,1:4],G=3) summary(mod2,param
阅读全文
摘要:Apriori算法的R语言实现 #步骤1 加载arules包 #install.packages("arules") library(arules) #步骤2 建立Apriori模型 data(Groceries) #调用数据文件 frequentsets<-eclat(Groceries,para
阅读全文
摘要:CART算法的R语言实现 #步骤1 数据预处理,建立训练集和预测集 loc <- "http://archive.ics.uci.edu/ml/machine-learning-databases/" ds <- "breast-cancer-wisconsin/breast-cancer-wisc
阅读全文
摘要:k-means聚类算法的R语言实现 K-means算法假设要把样本集分为c个类别,算法描述如下:(1)随机选择c个类的初始中心; (2)在第n次迭代中,对任意一个样本,求其到每一个中心的距离,将该样本归到距离最近的中心所在的类; (3)更新该类的中心值,一般利用均值、中位点等方法; (4)对于所有的
阅读全文
摘要:C4.5算法的R语言实现 #步骤1 数据集准备 library(sampling) #用于实现数据分层抽样 library(party) #用于实现决策树算法 set.seed(100) #设置随机种子 head(iris) str(iris) dim(iris) class(iris) n=rou
阅读全文
摘要:1 创建日期时间 日期:在 tibble 中显示为 <date>。 时间:一天中的某个时刻,在 tibble 中显示为 <time>。 日期时间:可以唯一标识某个时刻(通常精确到秒)的日期加时间,在 tibble 中显示为<dttm> 想得到当前日期或当前日期时间,你可以使用 today() 或 n
阅读全文