xmeo - 博客园

2016年7月12日

摘要： GBDT(Gradient Boosting Decision Tree) GBDT是一个应用很广泛的算法，可以用来做分类、回归(可用于二分类问题,设定阈值，大于阈值为正例，反之为负例)。其是一个框架，里面可以套入很多不同的算法,GBDT中的基函数都是回归树，回归树结果是会得一个预测值，所以结果累加阅读全文

posted @ 2016-07-12 14:35 xmeo 阅读(757) 评论(0) 推荐(0) 编辑

2016年6月22日

mac安装xgboost

摘要：官网安装说明地址:http://xgboost.readthedocs.io/en/latest/build.html#building-on-osx 单线程版: 第一步:clone代码: git clone --recursive https://github.com/dmlc/xgboost 第阅读全文

posted @ 2016-06-22 14:11 xmeo 阅读(314) 评论(0) 推荐(0) 编辑

2016年6月12日

Huffman编码与n-gram模型

摘要： Huffman树(最优二叉树): Huffman树是一种带权路径长度最短的二叉树。所谓树的带权路径长度，就是树中所有的叶结点的权值乘上其到根结点的路径长度（若根结点为0层，叶结点到根结点的路径长度为叶结点的层数）。构建huffman树: 输入符号集合 S = { s 1 , s 2 , ⋯ , 阅读全文

posted @ 2016-06-12 11:35 xmeo 阅读(634) 评论(0) 推荐(0) 编辑

2016年6月7日

Adaboost

摘要：一.Boost模型融合： Boosting算法是一种把若干个分类器整合为一个分类器的方法，如果一个问题存在弱分类器，则可以通过提升的办法得到强分类器，可以用于回归和分类问题。它每一步产生一个弱预测模型(如决策树)，并加权累加到总模型中；如果一步的弱预测模型生成都是依据损失函数的梯度方向，则称之为梯度阅读全文

posted @ 2016-06-07 10:45 xmeo 阅读(203) 评论(0) 推荐(0) 编辑

2016年5月1日

拉格朗日乘子法与KKT

摘要：通常我们需要求解的最优化问题有如下几类： (i) 无约束优化问题，可以写为: min f(x); (ii) 有等式约束的优化问题，可以写为: min f(x); s.t. hi(x) = 0; i =1, ..., n (iii) 有不等式约束的优化问题，可以写为： min f(x); s.t. g 阅读全文

posted @ 2016-05-01 14:03 xmeo 阅读(530) 评论(0) 推荐(0) 编辑

2016年4月20日

pandas nan & inf

摘要： pandas值替换 data.replace(-np.inf,0,inplace=True) data.fillna(0,inplace=True) 一定要加,inplace=True 否则可能不起作用阅读全文

posted @ 2016-04-20 10:08 xmeo 阅读(2841) 评论(0) 推荐(0) 编辑

2016年4月15日

模型构建与调优

摘要：一.模型选择常见的模型:分类模型, 回归模型, 聚类模型, 强化学习等. 模型评估:损失函数小的模型是好的模型损失函数: 我们在进行机器学习任务时，使用的每一个算法都有一个目标函数，算法便是对这个目标函数进行优化，特别是在分类或者回归任务中，便是使用损失函数（Loss Function）作为其阅读全文

posted @ 2016-04-15 16:40 xmeo 阅读(355) 评论(0) 推荐(0) 编辑

2016年4月10日

损失函数,梯度下降与牛顿法

摘要：损失函数我们在进行机器学习任务时，使用的每一个算法都有一个目标函数，算法便是对这个目标函数进行优化，特别是在分类或者回归任务中，便是使用损失函数（Loss Function）作为其目标函数，又称为代价函数(Cost Function)。损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度，阅读全文

posted @ 2016-04-10 14:36 xmeo 阅读(932) 评论(0) 推荐(0) 编辑

2016年3月30日

sklearn之crossvalidation

摘要： k折交叉验证验证损失函数对模型好坏的评价由图可以得知，平均方差越低越好，因此选择13~18左右的K值会最好。阅读全文

posted @ 2016-03-30 17:06 xmeo 阅读(417) 评论(0) 推荐(0) 编辑

2016年3月27日

特征工程

摘要：特征工程：一.数据处理 1.数据收集埋点，mysql，hdfs，日志等收集。 2.数据清洗 a.不符合常理数据 b.超出统计值的数据 c.缺省值极多的字段 3.数据采样 (1)正样本大于负样本，且相差很大下采样（截取与负样本量相近的正样本） (2)正样本大于负样本，相差不大 a.采集跟多数据阅读全文

posted @ 2016-03-27 11:17 xmeo 阅读(350) 评论(0) 推荐(0) 编辑

mxo

公告