09 2021 档案
摘要:1 K最近邻 这部分即将要讨论的K最近邻和后面的有权重K最近邻算法在R中的实现,其核心函数 knn()与 kknn()集判别规则的“建立”和“预测”这两个步骤于一体,即不需在规则建立后再使用predict()函数来进行预测,可由knn()和 kknn()一步实现。 按照次序向knn()函数中依次放入
阅读全文
摘要:1 朴素贝叶斯分类 我们使用NaiveBayes()函数来实现朴素贝叶斯分类算法,我们分为两种函数格式来分别介绍: #install.packages("klaR") library(klaR) library("MASS") (1)公式 formula格式 以nmkat为待判别变量,以datatr
阅读全文
摘要:应用案例 1 线性判别分析 执行线性判别分析可使用lda()函数,且该函数有三种执行形式,依次尝试使用。 (1)公式formula格式 我们使用nmkat变量作为待判别变量,其他剩余的变量作为特征变量,根据公式nmkat~使用训练集数据来运行lda()函数: library(MASS) librar
阅读全文
摘要:数据集 我们选用kknn软件包中的miete数据集进行算法演示,该数据集记录了1994年慕尼黑的住房租金标准中的一些有趣变量,比如房子的面积、是否有浴室、是否有中央供暖、是否供应热水等,这些都影响并决定着租金的高低。 1 数据概况 library(kknn) data(miete) head(mie
阅读全文
摘要:R中的实现 1 相关软件包 R中的实现主要涉及4个软件包中的相关函数,它们依次为MASS.klaR、class和 kknn。 其中,MASS包的名称为Modern Applied Statistics with S的缩写,即S语言的现代应用统计, 该包中含有大量实用而先进的统计技术函数及适用数据集;
阅读全文
摘要:判别分析 比较理论一些来说,判别分析就是根据已掌握的每个类别若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则;在遇到新的样本点时,再根据已总结出来的判别公式和判别准则,来判断出该样本点所属的类别。 1 概述 三大类主流的判别分析算法,分别为费希尔(Fisher)判别、贝叶斯(B
阅读全文
摘要:R中的实现 1 相关软件包 R中两个专用于关联分析的软件包-—arules 和 arulesViz。其中,arules用于关联规则的数字化生成,提供Apriori和 Eclat这两种快速挖掘频繁项集和关联规则算法的实现函数;而arulesViz软件包作为arules 的扩展包,提供了几种实用而新颖的
阅读全文
摘要:关联分析 概述 关联分析是数据挖掘的核心技术之一,其关联规则模型及数据挖掘算法是由 IBM 公司Almaden研究中心的R.Agrawal在1993年首先提出的,目的是从大量数据中发现项集之间的有趣关联或相互关系,其中最经典的Apriori算法在关联规则分析领域具有很大的影响力。 1.项集(ltem
阅读全文
摘要:1 数据变换 在数据变换中,数据被变换成适应于数据挖掘需求的形式,数据变换策略主要包括以下几种。 1.光滑:去掉数据中的噪声,可以通过分箱、回归和聚类等技术实现。 2.属性构造:由给定的属性构造出新属性并添加到数据集中。例如,通过“销售额”和“成本”构造出“利润”,只需要对相应属性数据进行简单变换即
阅读全文
摘要:数据集成 数据集成是指将多个数据源中的数据合并,并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。 冗余是数据集成的另一个重要问题。两个数据集有两个命名不同但实际数据相同的属性,那么其中一个属性就是冗余的。另外,一个属性若可以通过另一个属性的一定变换得出
阅读全文
摘要:1 噪声数据处理 噪声时一个测量变量中的随机错误或偏差,包括错误值或偏离期望的孤立点值,在R中可以调用outliers软件包中的outlier()函数寻找噪声点,该函数通过寻找数据集中于其他观测值及均值擦话剧很大的点作为异常值,函数的格式为: 其中x表示一个数据,通常是一个向量,如果x是一个数据框或
阅读全文
摘要:数据预处理 1 数据集加载 这里使用mice软件包下的nhanes2数据集进行演示,这是一个含有缺失值的小规模数据集。 library(lattice) library(MASS) library(nnet) library(mice) data("nhanes2") dim(nhanes2) #获
阅读全文
摘要:1 可视化探索 1.1 直方图 这是一种简单快速探索数据分布的方式。以Insurance数据集中过的“索赔量”变量Claims为例,观察该变量的分布情况。 hist(Insurance$Claims,main="Histogram of Freq of Insurance$Claims") 结果分析
阅读全文
摘要:1.1 变量概况 (1)可以通过attributes()函数给出数据集的属性列表,其中包括变量名称($names),数据集格式($class)一级列名($row.names)三个部分,由此可以对数据集结构有一个整体的把握。 library("MASS") attributes(Insurance)
阅读全文
摘要:1 简单处理数据 dim(Insurance) #获得数据集维度 dim(Insurance)[1] #获得数据集维度的第一个向量 2 变量类型 通过levels()可以看到因子型数据的各水平值 levels(Insurance$Age) #显示出年龄有四个等级 levels(Insurance$A
阅读全文