随笔分类 - R
摘要:Kaggle 地址 参考模型 其实这个项目的关键点在与存在大量的离散的特征,对于离散的维度的处理方法一般就是把每个离散维度的每个特征水平都像SQL行列装换那样转成一个维度,这个维度下的值只有0或1。但这样势必会导致维度暴增。这个项目就是典型,用merge函数把用户表和活动表链接后,存在大量的离散维度
阅读全文
摘要:重要参考 https://topepo.github.io/caret/pre-processing.html#identifying-correlated-predictors dummyVars:类似SQL的行列转换,把各个特征水平转为列 nearZeroVar:比如某一列数据大多数都是一个值,
阅读全文
摘要:一、装袋 对样本空间 D 进行 放回抽样,得到样本空间的一个子集 Di,由Di得到一个 分类器Mi。 不断的重复上述过程,就可以得到一系列分类器 M1,M2,M3....Mi ,在分类时用这些分类器进行投票来决定分类。 在R语言中装袋的函数存在于ipred (Improved Predictors)
阅读全文