建模一些问题的解读
摘要:建模tips 1.数值型特征分箱有什么用处? 数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。 特征分箱的目的: 从模型效
阅读全文
posted @
2021-02-25 20:03
小小喽啰
阅读(347)
推荐(0) 编辑
catboost代码模板
摘要:之前讲原理的时候就说到算法受随机参数影响比价大且所占内存和时间非常大,因此我们需要用到网格搜索法,且需要时间以及耐心等待 对于里面参数不了解的话,可以去网站:https://catboost.ai/docs/concepts/python-reference_catboostclassifier_f
阅读全文
posted @
2021-02-25 17:47
小小喽啰
阅读(376)
推荐(0) 编辑
catboost算法原理
摘要:每学习一种算法,我们都要带着问题去学习 1.算法原理是什么? 2.损失函数是什么? 3.优势劣势是什么? 4.算法适用场景,使用之前对数据的要求是什么?类别型变量是否可用? 一、catboost算法原理 CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Boosting族
阅读全文
posted @
2021-02-25 16:53
小小喽啰
阅读(7660)
推荐(2) 编辑
LightGBM代码模板
摘要:一、二分类代码模板 二分类也就是我们平时的0和1二类,和逻辑回归的label一样 import lightgbm as lgb import pandas as pd import numpy as np import pickle from sklearn.metrics import roc_a
阅读全文
posted @
2021-02-25 15:21
小小喽啰
阅读(412)
推荐(0) 编辑
LightGBM原理
摘要:先上官网链接:https://lightgbm.readthedocs.io/en/latest/ 接着带着问题去学习LGB: 1.LGB算法原理是什么 2.LGB应用场景是什么?或者说要求数据类型是什么 3.参数,调参之类的? 一、LGB原理 LightGBM (Light Gradient Bo
阅读全文
posted @
2021-02-25 11:38
小小喽啰
阅读(1891)
推荐(0) 编辑
决策树信息熵(entropy),基尼系数(gini)
摘要:总是很容易忘记一些专业术语的公式,可以先理解再去记住 1.信息熵(entropy) 反正就是先计算每一类别的占比,然后再乘法,最后再将每一类加起来 def entropy(sr): """计算信息熵,以一个明细的观测点序列为输入 \n 参数: sr: series, 一列明细数据,非统计好的各类别占
阅读全文
posted @
2021-02-24 20:29
小小喽啰
阅读(4218)
推荐(0) 编辑
模型指标混淆矩阵,accuracy,precision,recall,prc,auc
摘要:一、混淆矩阵 T和F代表是否预测正确,P和N代表预测为正还是负 这个图片我们见过太多次了,但其实要搞清楚我们的y值中的1定义是什么,这样就不会搞错TP、FP、FN、TN的顺序,比如说下面的混淆矩阵: [[198985 29] [ 73 277]] y(真实).value_counts(): 0: 1
阅读全文
posted @
2021-02-24 14:49
小小喽啰
阅读(2377)
推荐(0) 编辑
Dataframe.swaplevel 交换复合索引的level
摘要:我们在使用透视表之后,可能要讲复合索引列调一下位置,比如说下面的: 我们想要讲1个月内,3个月内等放在前面,即是 那么就可以使用Dataframe.swaplevel, DataFrame.swaplevel(i=- 2, j=- 1, axis=0) 前面的i,j使用默认值即可,后面的{0或'in
阅读全文
posted @
2021-02-22 15:52
小小喽啰
阅读(894)
推荐(0) 编辑
Python string 的 endswith()方法
摘要:Python endswith() 方法用于判断字符串是否以指定后缀结尾,如果以指定后缀结尾返回True,否则返回False。可选参数"start"与"end"为检索字符串的开始与结束位置。 str.endswith(suffix[, start[, end]]) suffix -- 该参数可以是一
阅读全文
posted @
2021-02-22 11:03
小小喽啰
阅读(619)
推荐(0) 编辑
python dict update函数
摘要:Python 字典(Dictionary) update() 函数把字典dict2的键/值对更新到dict里。 dict.update(dict2) dict2 -- 添加到指定字典dict里的字典。 该方法没有任何返回值。 dict = {'Name': 'Zara', 'Age': 7} dic
阅读全文
posted @
2021-02-22 10:11
小小喽啰
阅读(484)
推荐(0) 编辑
python dict get函数
摘要:Python 字典(Dictionary) get() 函数返回指定键key的值value dict.get(key, default=None) key -- 字典中要查找的键。 default -- 如果指定键的值不存在时,返回该默认值。 返回指定键的值,如果键不在字典中返回默认值 None 或
阅读全文
posted @
2021-02-22 10:04
小小喽啰
阅读(907)
推荐(0) 编辑
python中copy()和deepcopy()
摘要:深复制即是我们平时说的复制,即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。浅复制并不会产生一个独立的对象单独存在,他只是将原有的数据块打上一个新标签,所以当其中一个标签被改变的时候,数据块就会发生变化,另一个标签也会随之改变。这就和我
阅读全文
posted @
2021-02-19 20:33
小小喽啰
阅读(1446)
推荐(0) 编辑
信用卡欺诈检测Credit Card Fraud Detection(kaggle)
摘要:地址:https://www.kaggle.com/mlg-ulb/creditcardfraud 数据概述 数据集包含2013年9月欧洲持卡人通过信用卡进行的交易。该数据集显示了两天内发生的交易,在284,807笔交易中,我们有492起欺诈。数据集高度不平衡,阳性类别(欺诈)占所有交易的0.172
阅读全文
posted @
2021-02-09 11:33
小小喽啰
阅读(2553)
推荐(0) 编辑
python enumerate() 函数给可遍历的数据对象添加索引
摘要:enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中 seq = ['one', 'two', 'three'] for i, element in enumerate(seq): print( i, e
阅读全文
posted @
2021-02-09 09:59
小小喽啰
阅读(251)
推荐(0) 编辑
征信报告上的最近6个月平均使用额度
摘要:https://mp.weixin.qq.com/s/hqOTjNpRejra2kMh2oEB2g
阅读全文
posted @
2021-02-07 15:50
小小喽啰
阅读(1533)
推荐(0) 编辑
matplotlib 设置x轴的顺序
摘要:matplotlib画图x轴的顺序不是固定的,但是我们又想按照自己的想要的顺序排序,网上查了很多资料,最后发现,matplotlib的x轴的顺序是和数据有关系的,是按照x的值得出现顺序排序的,如果是df画图,我们呢可以根据某列的值先排序,然后在画图,但是如果该列的值是文本型,且排序的顺序不是我们想要
阅读全文
posted @
2021-02-04 19:20
小小喽啰
阅读(3858)
推荐(0) 编辑
pandas 实现sql中的rank over 功能
摘要:SQL里面可以实现根据某些字段去排序,然后在后面添加一列rank,pandas 也可以实现这种功能,如: fd = data_build[data_build.loantype_group=='房贷'] fd['rank'] = fd.groupby(["ref_id","opendate"])["
阅读全文
posted @
2021-02-03 11:58
小小喽啰
阅读(411)
推荐(0) 编辑
类别特征的编码处理
摘要:其中count encoder,one-hot encoder,label encoder主要针对低基数无序特征,比如性别。可以采用target encoder或者mean encoder的方法来针对高基数无序特征,比如地区,邮编等 一、Label Encoding LabelEncoder() 将
阅读全文
posted @
2021-02-02 09:55
小小喽啰
阅读(1795)
推荐(0) 编辑