07 2017 档案

摘要:回归树:使用平方误差最小准则 训练集为:D={(x1,y1), (x2,y2), …, (xn,yn)}。 输出Y为连续变量,将输入划分为M个区域,分别为R1,R2,…,RM,每个区域的输出值分别为:c1,c2,…,cm则回归树模型可表示为: 则平方误差为: 假如使用特征j的取值s来将输入空间划分为 阅读全文
posted @ 2017-07-16 19:12 光彩照人 阅读(9262) 评论(1) 推荐(0) 编辑
摘要:问题: 用xgboost/gbdt在在调参的时候把树的最大深度调成6就有很高的精度了。但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高。用RandomForest所需要的树的深度和DecisionTree一样我能理解,因为它是用bagging的方法把Deci 阅读全文
posted @ 2017-07-16 17:39 光彩照人 阅读(2087) 评论(0) 推荐(0) 编辑
摘要:一、安装 pip install hyperopt 二、说明 Hyperopt提供了一个优化接口,这个接口接受一个评估函数和参数空间,能计算出参数空间内的一个点的损失函数值。用户还要指定空间内参数的分布情况。 Hyheropt四个重要的因素:指定需要最小化的函数,搜索的空间,采样的数据集(trail 阅读全文
posted @ 2017-07-12 16:38 光彩照人 阅读(14496) 评论(0) 推荐(0) 编辑
摘要:作者:吴晓军 原文:https://zhuanlan.zhihu.com/p/27424282 模型验证(Validation) 在Test Data的标签未知的情况下,我们需要自己构造测试数据来验证模型的泛化能力,因此把Train Data分割成Train Set和Valid Set两部分,Tra 阅读全文
posted @ 2017-07-11 14:26 光彩照人 阅读(2863) 评论(0) 推荐(1) 编辑
摘要:Stacking是用新的模型(次学习器)去学习怎么组合那些基学习器,它的思想源自于Stacked Generalization这篇论文。如果把Bagging看作是多个基分类器的线性组合,那么Stacking就是多个基分类器的非线性组合。Stacking可以很灵活,它可以将学习器一层一层地堆砌起来。 阅读全文
posted @ 2017-07-10 10:15 光彩照人 阅读(5524) 评论(0) 推荐(0) 编辑
摘要:python中filter()函数 filter()函数是 Python 内置的另一个有用的高阶函数,filter()函数接收一个函数 f 和一个list,这个函数 f 的作用是对每个元素进行判断,返回 True或 False,filter()根据判断结果自动过滤掉不符合条件的元素,返回由符合条件元 阅读全文
posted @ 2017-07-09 16:36 光彩照人 阅读(369) 评论(0) 推荐(0) 编辑
摘要:A. max_features: 随机森林允许单个决策树使用特征的最大数量。 Python为最大特征数提供了多个可选项。 下面是其中的几个: Auto/None :简单地选取所有特征,每颗树都可以利用他们。这种情况下,每颗树都没有任何的限制。 sqrt :此选项是每颗子树可以利用总特征数的平方根个。 阅读全文
posted @ 2017-07-09 15:32 光彩照人 阅读(26294) 评论(0) 推荐(0) 编辑
摘要:第一次真正意义上参加kaggle比赛,都是工作之余看看别人的kernel,然后整理整理自己的分析代码。 总体来说,本次比赛对我而言更像一个入门比赛,更多的是走走kaggle比赛的整个流程,看看高手们都是怎么分析解决问题的。一边学习技术、理论知识、分析问题的思路,一边研究比赛题目。结果不是最重要的,最 阅读全文
posted @ 2017-07-08 15:11 光彩照人 阅读(738) 评论(0) 推荐(0) 编辑
摘要:题目要求:定义栈的数据结构,添加min()、max()函数(动态获取当前状态栈中的最小元素、最大元素),要求push()、pop()、min()、max()的时间复杂度都是O(1)。 思路解析:根据栈的后进先出特性,增加辅助栈,来存储当前状态下数据栈中的最小、最大元素。 原文:http://blog 阅读全文
posted @ 2017-07-06 09:07 光彩照人 阅读(937) 评论(0) 推荐(0) 编辑
摘要:如何对右偏数据进行变换 现在,我们需要分情况讨论一下。在实际生活中,最常见的情形是靠近正无穷的一侧有一个长尾巴(如图1左),习惯上称为「右偏」(right-skewed)或「正偏态」(positive skewness)。许多人会有点儿困惑,觉得图上分布的那个峰明明是向左边负数一侧偏的,怎么叫「右偏 阅读全文
posted @ 2017-07-05 10:13 光彩照人 阅读(7064) 评论(1) 推荐(0) 编辑
摘要:来源:http://www.cnblogs.com/pinard/p/6053344.html 作者:刘建平Pinard 对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归等。对于这些问题, CART算法大部分做了改进。CAR 阅读全文
posted @ 2017-07-05 09:18 光彩照人 阅读(5010) 评论(0) 推荐(0) 编辑
摘要:C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点: 1)用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度 度量准则),也就是熵的 阅读全文
posted @ 2017-07-01 17:38 光彩照人 阅读(1102) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示