牛顿动量法,相比于上一篇Momentum,不一样的地方是应用了临时更新 这里用python对其进行简单实现,如下: 结果,由于数据量太小,相比于Momentum提升不是很大: Read More
本来想研究一下lightGBM的plotting相关的接口,发现网上已经有人做了,而且还挺不错的(lightGBM的黑科技--plot函数),就直接给转过来了 原文链接:https://blog.csdn.net/jason160918/article/details/80973448 Read More
Momentum方法可以说是对SGD的进一步优化,细节可以参考这里 这里用python对其进行简单实现,如下: 同样的收敛条件,速度确实比MBGD要快,用的次数更少 结果: Read More
算法具体可以参照其他的博客: 随机梯度下降: 小批量梯度下降: 通过迭代,结果会收敛到8和3: 参考:http://www.cnblogs.com/pinard/p/5970503.html Read More
在进行有监督的机器学习时,特征工程显得尤其重要,本文介绍的是在人工提取一些特征之后,怎样对这些特征进行二阶组合提取; 在进行一系列的摸索之后,得到3个基本点: 最优分箱(见前面的博文) 进行WOE变换(将原特征用分箱后的WOE值替换) 如果离散特征的维度较低(低到多少自己定,可根据前面的博文输出结果 Read More
记录一下pandas常用的小技巧,时间长了干别的去了会忘记,记录一下: 1. 在处理数据过程中涉及到label和null的处理方法 2. pandas中对两列的处理,比如字符串拼接 3. 特征对比图 Read More
xgboost原生包中有一个dump_model方法,这个方法能帮助我们看到基分类器的决策树如何选择特征进行分裂节点的,使用的基分类器有两个特点: 由dump_model生成的booster格式如下: 我们可以对该类型的树结构进行解析,得到这个基分类器中特征用来分裂的频率,简单的脚本如下: 得到结果 Read More
对数据集分箱的方式三种,等宽等频最优,下面介绍对数据集进行最优分箱,分箱的其他介绍可以查看其他的博文,具体在这就不细说了: 大体步骤: woe.py conf.py woe_executor.py test.conf (head的详细解释看代码内部注释) 根据树进行最优分箱的逻辑图如下: 分箱结果示 Read More
建立模型首先要对数据进行可视化,格式有点丑,真的不知道怎么调,也不想一个个写,接截图了,做个记录 参考:https://www.jianshu.com/p/96977b9869ac Read More
(基于es5.4)先喵几眼github,按照步骤安装好分词器 link:https://github.com/medcl/elasticsearch-analysis-ik 复习一下常用的操作 先测试ik分词器的基本功能 结果: 可以看出:通过ik_smart明显很智能的将 "中华人民共和国国歌"进 Read More