摘要:
在集成学习方法的两个流派中,boosting流派特点是各个弱学习器之间有依赖关系;bagging流派的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。 一、Bagging介绍 先看一个Bagging的一个概念图(图来自https://www 阅读全文
摘要:
一个国际友人绘图遇到的问题,查了一手资料。主要参考的是这个老哥的做法(https://blog.csdn.net/wyquin/article/details/80508260) #totalSeed 为折线图对应的Y fig1, ax = plt.subplots() ax.plot(totalS 阅读全文
摘要:
眼残cmake版本配错了搞了半天,简单记录一下,老规矩,参考一下官方的文档. 整体的命令行如上所述,在cmake编译的时候会提示cmake版本要高于3.12,这里给一个cmake3.14的安装流程 cpu跑xgboost太慢了,配好gpu版的一跑显存不够...打扰了,小的这就换电脑 阅读全文
摘要:
推荐先看一手官方的Installation Guide.我用的是ubuntu 16.04,一些要求如下图: 主要是OpenCL以及libboost两个环境的要求. (1) OpenCL的安装.我这里之前安装了NVIDA-395的驱动以及CUDA 9.0,只需要在编译的时候给出对应的path就可以了( 阅读全文
摘要:
引言 GBDT已经有了比较成熟的应用,例如XGBoost和pGBRT,但是在特征维度很高数据量很大的时候依然不够快。一个主要的原因是,对于每个特征,他们都需要遍历每一条数据,对每一个可能的分割点去计算信息增益。为了解决这个问题,本文提出了两个新技术:Gradient-based One-Side S 阅读全文
摘要:
Huber Loss 是一个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对离群点的鲁棒性。 当预测偏差小于 δ 时,它采用平方误差,当预测偏差大于 δ 时,采用的线性误差。 相比于最小二乘的线性回归,HuberLoss降低了对离群点的惩罚 阅读全文
摘要:
分类变量的处理 编码方式: >> one-hot编码 >> 虚拟编码:one-hot编码对于k类别的变量编辑一个长度为k的特征向量,实际上自由变量只有k-1个。虚拟编码对于k类别的变量编辑一个长度为k-1的特征向量,使得编码更具有解释性 >> 效果编码:与虚拟编码类似,区别在于参照类由全部由-1的向 阅读全文
摘要:
发数值部分 处理计数问题,对于大规模的数据,在实际处理的时候要考虑是保留原始的数值类型还是转成二值数,或者粗粒度的分箱操作.对于衡量可以二分类的数据,如果存在个别极端大的数值的数据会对带跑整体的预测,这个时候就需要设置一个threshold对数据二值化处理.下面主要记录一下分箱方法. yelp数据是 阅读全文
摘要:
1540: 第k大数Time Limit: 10 Sec Memory Limit: 128 MB[Submit][Status][Web Board]Description有两个序列a,b,它们的长度分别为n和m,那么将两个序列中的元素对应相乘后得到的n*m个元素从大到小排列后的第k个元素是什么? 阅读全文
摘要:
ABSTRACT 主要点为用MLP来替换传统CF算法中的内积操作来表示用户和物品之间的交互关系. INTRODUCTION NeuCF设计了一个基于神经网络结构的CF模型.文章使用的数据为隐式数据,想较于显性数据,implicit feedback更容易获取但比较难处理.文章的主要贡献有以下三点: 阅读全文