R - 随笔分类 - 爱知菜

Kaggle 上一个用户分类问题

摘要：Kaggle 地址参考模型其实这个项目的关键点在与存在大量的离散的特征，对于离散的维度的处理方法一般就是把每个离散维度的每个特征水平都像SQL行列装换那样转成一个维度，这个维度下的值只有0或1。但这样势必会导致维度暴增。这个项目就是典型，用merge函数把用户表和活动表链接后，存在大量的离散维度阅读全文

posted @ 2017-04-13 00:04 爱知菜阅读(36) 评论(0) 推荐(0)

R package： Caret

摘要：重要参考 https://topepo.github.io/caret/pre-processing.html#identifying-correlated-predictors dummyVars：类似SQL的行列转换，把各个特征水平转为列 nearZeroVar：比如某一列数据大多数都是一个值，阅读全文

posted @ 2017-04-09 23:42 爱知菜阅读(57) 评论(0) 推荐(0)

提高分类器准确率的几种方法总结（装袋，提升，随机森林）

摘要：一、装袋对样本空间 D 进行放回抽样，得到样本空间的一个子集 Di，由Di得到一个分类器Mi。不断的重复上述过程，就可以得到一系列分类器 M1,M2,M3....Mi ，在分类时用这些分类器进行投票来决定分类。在R语言中装袋的函数存在于ipred （Improved Predictors）阅读全文

posted @ 2013-05-30 12:09 爱知菜阅读(67) 评论(0) 推荐(0)

爱知菜的技术博客

随笔分类 - R

公告