斯托克顿

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2020年12月11日

摘要: 最近在学习特征工程,整理了几个特征编码的方法: 方法一:合并编码(Consolidation encoding) 含义:由于拼写错误,职位、地域位置等变量的描述略有不同,可以将意思相同的分类变量映射到同一变量。 适用特征:主要处理分类变量。 优点:可以统一特征,删除无效数据 缺点:如果变量数量多,需 阅读全文
posted @ 2020-12-11 10:57 斯托克顿 阅读(354) 评论(0) 推荐(0) 编辑

2019年6月6日

摘要: 方差膨胀系数(variance inflation factor,VIF)是衡量多元线性回归模型中复 (多重)共线性严重程度的一种度量。它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。 多重共线性是指自变量之间存在线性相关关系,即一个自变量可以是其他一个或几个自变量的线性组合。若 阅读全文
posted @ 2019-06-06 16:52 斯托克顿 阅读(49127) 评论(0) 推荐(0) 编辑

2019年5月27日

摘要: ""k-means聚类算法过程1)从N个样本数据中随机选取k个作为初始的聚类中心2)分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中3)所有对象分配完成后,重新计算K个聚类的中心4)与前一次计算得到的K个聚类中心比较,如果聚类中心发生变化,转过程2),否则转过程5)5)当质心不发生 阅读全文
posted @ 2019-05-27 17:31 斯托克顿 阅读(363) 评论(0) 推荐(0) 编辑

2017年9月19日

摘要: 缺失值处理包括两个步骤,即缺失数据的识别和缺失值处理。在R语言总缺失值以NA表示,可以使用函数is.na()判断缺失值是否存在,函数complete.cases()可识别样本数据是否完整从而判断缺失情况。缺失值处理常用方法有删除法、替换法、插补法。 (1)删除法:可分为删除观测样本与删除变量。 删除 阅读全文
posted @ 2017-09-19 15:43 斯托克顿 阅读(18053) 评论(0) 推荐(0) 编辑

2016年11月18日

摘要: barplot() 条形图 spine() 棘状图 pie() 饼图 hist() 直方图 plot(density(x))核密度图 boxplot(X) 箱线图 vioplot() 小提琴图 dotchar() 点图 阅读全文
posted @ 2016-11-18 09:56 斯托克顿 阅读(251) 评论(0) 推荐(0) 编辑

摘要: 数学函数 abs() 绝对值 sqrt() 平方 ceiling() 向上取整 floor() 向下取整 trunc() 截取整数部分 round(x,digits = n) 保留几位小数 统计函数 mean() 均值 median() 中位数 sd() 标准差 var() 方差 mad() 绝对中 阅读全文
posted @ 2016-11-18 09:44 斯托克顿 阅读(247) 评论(0) 推荐(0) 编辑

2016年11月16日

摘要: 类型转换函数 判断 is.numeric() is.character() is.vector() is.matrix() is.data.frame() is.factor() is.logical 转换 as.numeric() as.character() as.vector() as.mat 阅读全文
posted @ 2016-11-16 16:10 斯托克顿 阅读(141) 评论(0) 推荐(0) 编辑

摘要: dev.new() 创建一个新图像之前打开一个新的窗口 win.graph() 同上 pch() 指定绘制点时使用的符号 cex() 指定符号的大小,是一个数值,表示绘图符号相当于默认大小的缩放倍数 lty() 指定线条的类型 lwd() 指定线条宽度 ,默认值为1 col() 默认的绘图颜色,co 阅读全文
posted @ 2016-11-16 08:55 斯托克顿 阅读(467) 评论(0) 推荐(0) 编辑

2016年11月14日

摘要: length(object) 显示对象中元素/成分的数量 dim(object) 显示某个对象的维度 str(object) 显示某个对象的结构 class(object) 显示某个对象的类或类型 mode(object) 显示某个对象的模式 nemas(object) 显示某对象中各成分的名称 c 阅读全文
posted @ 2016-11-14 09:35 斯托克顿 阅读(323) 评论(0) 推荐(0) 编辑

2016年11月8日

摘要: 1.向量 向量是用来存储数值型、字符型或逻辑性数据的一维数组,用函数c()创建向量 a <- c(1,2,5,6,4) b <- c("one","two","three") c <- c("TRUE","FALSE") 2.矩阵 矩阵是一个二维数组,只是每个元素都拥有相同的模式,用函数matrix 阅读全文
posted @ 2016-11-08 16:09 斯托克顿 阅读(184) 评论(0) 推荐(0) 编辑