摘要:
来源:http://www.cnblogs.com/pinard/p/6053344.html 作者:刘建平Pinard 对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归等。对于这些问题, CART算法大部分做了改进。CAR 阅读全文
摘要:
C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点: 1)用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度 度量准则),也就是熵的 阅读全文
摘要:
来源: Poll的笔记 cnblogs.com/maybe2030/p/4734645.html 阅读目录 1. 决策树的模型 2. 决策树的基本知识 3. ID3、C4.5&CART 4. Random Forest 5. GBDT 6. 参考内容 1. 决策树的模型 2. 决策树的基本知识 3. 阅读全文
摘要:
来源: Poll的笔记 cnblogs.com/maybe2030/p/4585705.html 1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源 阅读全文
摘要:
Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。 首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。 1、Bagging ( 阅读全文
摘要:
迭代 你可以创建一个列表,然后逐一遍历,这就是迭代 1 2 3 4 5 6 >>> mylist = [1, 2, 3] >>> for i in mylist: ... print(i) 1 2 3 1 2 3 4 5 6 >>> mylist = [1, 2, 3] >>> for i in m 阅读全文
摘要:
1、变量交换 大部分编程语言中交换两个变量的值时,不得不引入一个临时变量: pythonic 2、循环遍历区间元素 pythonic xrange 返回的是生成器对象,生成器比列表更加节省内存,不过需要注意的是 xrange 是 python2 中的写法,python3 只有 range 方法,特点 阅读全文
摘要:
1.查看数据的类型概况 cols = [c for c in train.columns] #返回数据的列名到列表里 print('Number of features: {}'.format(len(cols))) print('Feature types:')train[cols].dtypes 阅读全文
摘要:
作者:无影随想 时间:2016年1月。 出处:http://www.zhaokv.com/2016/01/normalization-and-standardization.html 在机器学习和数据挖掘中,经常会听到两个名词:归一化(Normalization)与标准化(Standardizati 阅读全文
摘要:
作者:无影随想 时间:2016年1月。 出处:http://www.zhaokv.com/2016/01/learning-from-imbalanced-data.html 这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这 阅读全文