nxf_rabbit75 - 博客园

2018年10月17日

训练/验证/测试集设置;偏差/方差;high bias/variance;正则化;为什么正则化可以减小过拟合

摘要： 1. 训练、验证、测试集对于一个需要解决的问题的样本数据，在建立模型的过程中，我们会将问题的data划分为以下几个部分：训练集（train set）：用训练集对算法或模型进行训练过程；验证集（development set）：利用验证集或者又称为简单交叉验证集（hold out cross v 阅读全文

posted @ 2018-10-17 18:47 nxf_rabbit75 阅读(1171) 评论(0) 推荐(0) 编辑

2018年10月14日

turple list dict 互相转换

摘要： 1. 字典(dict) 1.1 字典字符串结果如下 1.2 字典元组结果如下 1.3 字典元组结果如下 1.4 字典列表结果如下 1.5 字典列表结果如下 2.元组(turple) 2.1 元组字符串结果如下 2.2 元组列表结果如下 2.3 元组不能转成字典 3.列表( 阅读全文

posted @ 2018-10-14 11:33 nxf_rabbit75 阅读(2898) 评论(0) 推荐(0) 编辑

2018年10月13日

Pandas之Dropna滤除缺失数据

摘要：一、处理Series对象通过dropna()滤除缺失数据结果如下：通过布尔序列也能滤除：结果如下：二、处理DataFrame对象处理DataFrame对象比较复杂，因为你可能需要丢弃所有的NaN或部分NaN 结果如下：默认滤除所有包含NaN：结果如下传入how=’all’滤除全为N 阅读全文

posted @ 2018-10-13 22:12 nxf_rabbit75 阅读(804) 评论(0) 推荐(0) 编辑

模型选择---KFold，StratifiedKFold k折交叉切分

摘要： StratifiedKFold用法类似Kfold，但是他是分层采样，确保训练集，测试集中各类别样本的比例与原始数据集中相同。例子：结果：分析：可以看到StratifiedKFold 分层采样交叉切分，确保训练集，测试集中各类别样本的比例与原始数据集中相同。阅读全文

posted @ 2018-10-13 09:14 nxf_rabbit75 阅读(1467) 评论(0) 推荐(0) 编辑

2018年10月6日

xgb, lgb, Keras, LR(二分类、多分类代码)

摘要： preprocess Logistic Regression LightGBM 1. 二分类 2.多分类 XGBoost 1. 二分类处理正负样本不均匀的案例主要思路 1. 手动调整正负样本比例 2. 过采样 Over Sampling 对训练集里面样本数量较少的类别（少数类）进行过采样，合成新阅读全文

posted @ 2018-10-06 20:22 nxf_rabbit75 阅读(5200) 评论(0) 推荐(0) 编辑

京东2017金融预测

摘要：赛题回顾京东金融提供8到11月的用户借款信息，订单购买信息，页面点击信息以及用户个人和贷款的初始额度信息；要求预测12月每个用户的贷款信息。评价方式采用RMSE函数：参考 "2017京东金融信贷需求预测赛题总结" 阅读全文

posted @ 2018-10-06 19:45 nxf_rabbit75 阅读(428) 评论(0) 推荐(0) 编辑

2018年9月21日

Pandas之Series+DataFrame

摘要： Series是带有标签的一维数组，可以保存任何数据类型(整数，字符串，浮点数，python对象) index查看series索引，values查看series值 series相比于ndarray，是一个自带索引index的数组一维数组 + 对应索引 series和dict相比，series更像是一阅读全文

posted @ 2018-09-21 22:47 nxf_rabbit75 阅读(1177) 评论(0) 推荐(0) 编辑

numpy.random.rand()/randn()/randint()/normal()/choice()/RandomState()

摘要：这玩意用了很多次，但每次用还是容易混淆，今天来总结mark一下~~~ 1. numpy.random.rand(d0,d1,...,dn) 生成一个[0,1)之间的随机数或N维数组 2. numpy.random.randn(d0,d1,...,dn) 生成一个[0,1)之间的随机浮点数或N维浮点数阅读全文

posted @ 2018-09-21 21:37 nxf_rabbit75 阅读(1088) 评论(0) 推荐(0) 编辑

2018年9月20日

Kaggle案例泰坦尼克号问题

摘要：泰坦里克号预测生还人口问题泰坦尼克号问题背景就是那个大家都熟悉的『Jack and Rose』的故事，豪华游艇倒了，大家都惊恐逃生，可是救生艇的数量有限，无法人人都有，副船长发话了lady and kid first!，所以是否获救其实并非随机，而是基于一些背景有rank先后的。训练和测试阅读全文

posted @ 2018-09-20 14:45 nxf_rabbit75 阅读(840) 评论(0) 推荐(0) 编辑

2018年9月19日

apply、map、applymap、Dropna

摘要： DataFrame常用易混淆方法 apply && map && applymap 1.apply()：作用在一维的向量上时，可以使用apply来完成，如下所示 2.map()：作用是将函数作用于一个Series的每一个元素 3.applymap():作用于DataFrame中的每一个元素滤除缺失阅读全文

posted @ 2018-09-19 14:31 nxf_rabbit75 阅读(241) 评论(0) 推荐(0) 编辑