摘要: GBDT(Gradient Boosting Decision Tree) GBDT是一个应用很广泛的算法,可以用来做分类、回归(可用于二分类问题,设定阈值,大于阈值为正例,反之为负例)。其是一个框架,里面可以套入很多不同的算法,GBDT中的基函数都是回归树,回归树结果是会得一个预测值,所以结果累加 阅读全文
posted @ 2016-07-12 14:35 xmeo 阅读(757) 评论(0) 推荐(0) 编辑
摘要: 官网安装说明地址:http://xgboost.readthedocs.io/en/latest/build.html#building-on-osx 单线程版: 第一步:clone代码: git clone --recursive https://github.com/dmlc/xgboost 第 阅读全文
posted @ 2016-06-22 14:11 xmeo 阅读(314) 评论(0) 推荐(0) 编辑
摘要: Huffman树(最优二叉树): Huffman树是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数)。 构建huffman树: 输入 符号集合 S = { s 1 , s 2 , ⋯ , 阅读全文
posted @ 2016-06-12 11:35 xmeo 阅读(634) 评论(0) 推荐(0) 编辑
摘要: 一.Boost模型融合: Boosting算法是一种把若干个分类器整合为一个分类器的方法,如果一个问题存在弱分类器,则可以通过提升的办法得到强分类器,可以用于回归和分类问题。它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中;如果一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度 阅读全文
posted @ 2016-06-07 10:45 xmeo 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 通常我们需要求解的最优化问题有如下几类: (i) 无约束优化问题,可以写为: min f(x); (ii) 有等式约束的优化问题,可以写为: min f(x); s.t. hi(x) = 0; i =1, ..., n (iii) 有不等式约束的优化问题,可以写为: min f(x); s.t. g 阅读全文
posted @ 2016-05-01 14:03 xmeo 阅读(530) 评论(0) 推荐(0) 编辑
摘要: pandas值替换 data.replace(-np.inf,0,inplace=True) data.fillna(0,inplace=True) 一定要加,inplace=True 否则可能不起作用 阅读全文
posted @ 2016-04-20 10:08 xmeo 阅读(2841) 评论(0) 推荐(0) 编辑
摘要: 一.模型选择 常见的模型:分类模型, 回归模型, 聚类模型, 强化学习 等. 模型评估:损失函数小的模型是好的模型 损失函数: 我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Function)作为其 阅读全文
posted @ 2016-04-15 16:40 xmeo 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 损失函数 我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Function)作为其目标函数,又称为代价函数(Cost Function)。损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度, 阅读全文
posted @ 2016-04-10 14:36 xmeo 阅读(932) 评论(0) 推荐(0) 编辑
摘要: k折交叉验证 验证损失函数对模型好坏的评价 由图可以得知,平均方差越低越好,因此选择13~18左右的K值会最好。 阅读全文
posted @ 2016-03-30 17:06 xmeo 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 特征工程: 一.数据处理 1.数据收集 埋点,mysql,hdfs,日志等收集。 2.数据清洗 a.不符合常理数据 b.超出统计值的数据 c.缺省值极多的字段 3.数据采样 (1)正样本大于负样本,且相差很大 下采样(截取与负样本量相近的正样本) (2)正样本大于负样本,相差不大 a.采集跟多数据 阅读全文
posted @ 2016-03-27 11:17 xmeo 阅读(350) 评论(0) 推荐(0) 编辑