摘要:
1. 训练、验证、测试集 对于一个需要解决的问题的样本数据,在建立模型的过程中,我们会将问题的data划分为以下几个部分: 训练集(train set):用训练集对算法或模型进行训练过程; 验证集(development set):利用验证集或者又称为简单交叉验证集(hold out cross v 阅读全文
摘要:
1. 字典(dict) 1.1 字典 字符串 结果如下 1.2 字典 元组 结果如下 1.3 字典 元组 结果如下 1.4 字典 列表 结果如下 1.5 字典 列表 结果如下 2.元组(turple) 2.1 元组 字符串 结果如下 2.2 元组 列表 结果如下 2.3 元组不能转成字典 3.列表( 阅读全文
摘要:
一、处理Series对象 通过dropna()滤除缺失数据 结果如下: 通过布尔序列也能滤除: 结果如下: 二、处理DataFrame对象 处理DataFrame对象比较复杂,因为你可能需要丢弃所有的NaN或部分NaN 结果如下: 默认滤除所有包含NaN: 结果如下 传入how=’all’滤除全为N 阅读全文
摘要:
StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同。 例子: 结果: 分析:可以看到StratifiedKFold 分层采样交叉切分,确保训练集,测试集中各类别样本的比例与原始数据集中相同。 阅读全文
摘要:
preprocess Logistic Regression LightGBM 1. 二分类 2.多分类 XGBoost 1. 二分类 处理正负样本不均匀的案例 主要思路 1. 手动调整正负样本比例 2. 过采样 Over Sampling 对训练集里面样本数量较少的类别(少数类)进行过采样,合成新 阅读全文
摘要:
赛题回顾 京东金融提供8到11月的用户借款信息,订单购买信息,页面点击信息以及用户个人和贷款的初始额度信息;要求预测12月每个用户的贷款信息。评价方式采用RMSE函数: 参考 "2017京东金融信贷需求预测 赛题总结" 阅读全文
摘要:
Series是带有标签的一维数组,可以保存任何数据类型(整数,字符串,浮点数,python对象) index查看series索引,values查看series值 series相比于ndarray,是一个自带索引index的数组 一维数组 + 对应索引 series和dict相比,series更像是一 阅读全文
摘要:
这玩意用了很多次,但每次用还是容易混淆,今天来总结mark一下~~~ 1. numpy.random.rand(d0,d1,...,dn) 生成一个[0,1)之间的随机数或N维数组 2. numpy.random.randn(d0,d1,...,dn) 生成一个[0,1)之间的随机浮点数或N维浮点数 阅读全文
摘要:
泰坦里克号预测生还人口问题 泰坦尼克号问题背景 就是那个大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇 的数量有限,无法人人都有,副船长发话了lady and kid first!,所以是否获救其实并非随机,而是基 于一些背景有rank先后的。 训练和测试 阅读全文
摘要:
DataFrame常用易混淆方法 apply && map && applymap 1.apply():作用在一维的向量上时,可以使用apply来完成,如下所示 2.map():作用是将函数作用于一个Series的每一个元素 3.applymap():作用于DataFrame中的每一个元素 滤除缺失 阅读全文