09 2018 档案

摘要:1. GBDT + LR 是什么 本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook 。 阅读全文
posted @ 2018-09-18 19:43 Bo_hemian 阅读(60978) 评论(5) 推荐(10)
摘要:看了一些别人的思路,总结了一些模型性能提升的操作并完成python实现。 1. 行空缺值的处理 常规方法 统计每行数据的空缺值,如果空缺值数量超过阈值,则剔除此行数据。 改进方法 考虑特征重要度的因素。遵循一个原则:特征重要度越高,对这一特征下的空缺值容忍程度越低。 特征重要度的评估手段 1.1 输 阅读全文
posted @ 2018-09-16 19:06 Bo_hemian 阅读(2144) 评论(0) 推荐(1)
摘要:1. 问题背景 使用Pycharm连接远程服务器端pipenv虚拟环境的python解释器,运行python spark脚本时报错如下错误: 2018-09-12 23:56:00 ERROR Executor:91 - Exception in task 0.0 in stage 0.0 (TID 阅读全文
posted @ 2018-09-13 01:00 Bo_hemian 阅读(3685) 评论(0) 推荐(0)
摘要:1. 什么是FM? FM即Factor Machine,因子分解机。 2. 为什么需要FM? 1、特征组合是许多机器学习建模过程中遇到的问题,如果对特征直接建模,很有可能会忽略掉特征与特征之间的关联信息,因此,可以通过构建新的交叉特征这一特征组合方式提高模型的效果。 2、高维的稀疏矩阵是实际工程中常 阅读全文
posted @ 2018-09-08 19:01 Bo_hemian 阅读(41576) 评论(64) 推荐(13)
摘要:关键词:分而治之、递归、计算速度、基准值 1. 什么是分而治之? 1.1 分而治之(divide and conquer)一种递归式方法 1.2 找出基线条件,这种条件必须尽可能简单 1.3 不断将问题分解为简单问题,直到问题满足极基线条件 2. 算法计算时间 2.1 最好情况: 假设数组的长度为0 阅读全文
posted @ 2018-09-03 01:41 Bo_hemian 阅读(830) 评论(0) 推荐(0)