摘要:
优点: 1)能够处理很高维度(feature很多)的数据,并且不用做特征选择(特征列采样) 2)训练完后,能够返回特征的重要性 3 ) 训练时树与树之间是相互独立的,易于并行化 4)可以处理缺失特征(决策树的优点) 缺点: 分裂的时候,偏向于选择取值较多的特征 http://blog.csdn.ne 阅读全文
摘要:
缺失值问题可以从三个方面来考虑 1. 在选择分裂属性的时候,训练样本存在缺失值,如何处理?(计算分裂损失减少值时,忽略特征缺失的样本,最终计算的值乘以比例(实际参与计算的样本数除以总的样本数)) 假如你使用ID3算法,那么选择分类属性时,就要计算所有属性的熵增(信息增益,Gain)。假设10个样本, 阅读全文