摘要: main idea:计算每一个feature的重要性,选取重要性前k的feature;衡量一个feature重要的方式:如果一个feature重要,则在这个feature上加上noise,会对最后performance影响很大。1.feature selection的含义及优缺点 去除冗余的特征(... 阅读全文
posted @ 2015-01-29 21:54 porco 阅读(350) 评论(0) 推荐(0) 编辑
摘要: main idea: 在使用bootstrap生成gi的训练集时,会有一部分数据没有被选中,使用这一部分数据(OOB)进行validation。 1.数据没有被选中的概率 假设训练集大小为N,使用bootstrap生成N’(假设N’=N)条数据用于gi的训练(有放回抽样),则某条特定数据没有被选中的概率为: 当N很大(趋于无穷)时,大约有1/3的数据没有被选中... 阅读全文
posted @ 2015-01-29 20:42 porco 阅读(268) 评论(0) 推荐(0) 编辑