猪突猛进！！！

2019年10月7日

摘要：在集成学习方法的两个流派中，boosting流派特点是各个弱学习器之间有依赖关系；bagging流派的特点是各个弱学习器之间没有依赖关系，可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。一、Bagging介绍先看一个Bagging的一个概念图(图来自https://www 阅读全文

posted @ 2019-10-07 11:19 猪突猛进！！！阅读(636) 评论(0) 推荐(0) 编辑

2019年10月6日

python matplotlib 设置x轴文本间隔显示（数字的话可以转为字符之后处理）

摘要：一个国际友人绘图遇到的问题，查了一手资料。主要参考的是这个老哥的做法（https://blog.csdn.net/wyquin/article/details/80508260） #totalSeed 为折线图对应的Y fig1, ax = plt.subplots() ax.plot(totalS 阅读全文

posted @ 2019-10-06 18:55 猪突猛进！！！阅读(7684) 评论(0) 推荐(0) 编辑

2019年9月14日

Xgboost GPU配置

摘要：眼残cmake版本配错了搞了半天,简单记录一下,老规矩,参考一下官方的文档. 整体的命令行如上所述,在cmake编译的时候会提示cmake版本要高于3.12,这里给一个cmake3.14的安装流程 cpu跑xgboost太慢了,配好gpu版的一跑显存不够...打扰了,小的这就换电脑阅读全文

posted @ 2019-09-14 17:29 猪突猛进！！！阅读(2446) 评论(0) 推荐(0) 编辑

2019年9月12日

lightGBM gpu环境配置

摘要：推荐先看一手官方的Installation Guide.我用的是ubuntu 16.04,一些要求如下图: 主要是OpenCL以及libboost两个环境的要求. (1) OpenCL的安装.我这里之前安装了NVIDA-395的驱动以及CUDA 9.0,只需要在编译的时候给出对应的path就可以了( 阅读全文

posted @ 2019-09-12 11:01 猪突猛进！！！阅读(2204) 评论(0) 推荐(0) 编辑

2019年9月11日

论文笔记:LightGBM: A Highly Efficient Gradient Boosting Decision Tree

摘要：引言 GBDT已经有了比较成熟的应用，例如XGBoost和pGBRT，但是在特征维度很高数据量很大的时候依然不够快。一个主要的原因是，对于每个特征，他们都需要遍历每一条数据，对每一个可能的分割点去计算信息增益。为了解决这个问题，本文提出了两个新技术：Gradient-based One-Side S 阅读全文

posted @ 2019-09-11 15:52 猪突猛进！！！阅读(1289) 评论(0) 推荐(0) 编辑

2019年9月9日

Huber Loss 介绍

摘要： Huber Loss 是一个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对离群点的鲁棒性。当预测偏差小于 δ 时，它采用平方误差,当预测偏差大于 δ 时，采用的线性误差。相比于最小二乘的线性回归，HuberLoss降低了对离群点的惩罚阅读全文

posted @ 2019-09-09 19:13 猪突猛进！！！阅读(4972) 评论(0) 推荐(0) 编辑

2019年9月5日

精通特征工程笔记（二）

摘要：分类变量的处理编码方式： >> one-hot编码 >> 虚拟编码：one-hot编码对于k类别的变量编辑一个长度为k的特征向量，实际上自由变量只有k-1个。虚拟编码对于k类别的变量编辑一个长度为k-1的特征向量，使得编码更具有解释性 >> 效果编码：与虚拟编码类似，区别在于参照类由全部由-1的向阅读全文

posted @ 2019-09-05 10:55 猪突猛进！！！阅读(737) 评论(0) 推荐(0) 编辑

2019年9月4日

精通特征工程笔记(一)

摘要：发数值部分处理计数问题,对于大规模的数据,在实际处理的时候要考虑是保留原始的数值类型还是转成二值数,或者粗粒度的分箱操作.对于衡量可以二分类的数据,如果存在个别极端大的数值的数据会对带跑整体的预测,这个时候就需要设置一个threshold对数据二值化处理.下面主要记录一下分箱方法. yelp数据是阅读全文

posted @ 2019-09-04 20:52 猪突猛进！！！阅读(791) 评论(0) 推荐(0) 编辑

2019年9月1日

zcmu 1540第k大数

摘要： 1540: 第k大数Time Limit: 10 Sec Memory Limit: 128 MB[Submit][Status][Web Board]Description有两个序列a，b，它们的长度分别为n和m，那么将两个序列中的元素对应相乘后得到的n*m个元素从大到小排列后的第k个元素是什么？阅读全文

posted @ 2019-09-01 19:42 猪突猛进！！！阅读(226) 评论(0) 推荐(0) 编辑

2019年8月29日

论文笔记 : NCF( Neural Collaborative Filtering)

摘要： ABSTRACT 主要点为用MLP来替换传统CF算法中的内积操作来表示用户和物品之间的交互关系. INTRODUCTION NeuCF设计了一个基于神经网络结构的CF模型.文章使用的数据为隐式数据,想较于显性数据,implicit feedback更容易获取但比较难处理.文章的主要贡献有以下三点: 阅读全文

posted @ 2019-08-29 15:51 猪突猛进！！！阅读(4491) 评论(0) 推荐(0) 编辑

不搞事情和咸鱼有什么区别

公告