scorecardpy 介绍
摘要:前语:平时计算变量IV值时也有调用过scorecardpy库,不过总体来说使用次数不多,对此功能也不是很熟悉,一般都是使用自己内部的库,但是涉及到去其他公司建模,或者是一个封闭的环境时,常常不能使用自己的东西,这就得使用toad或者scorecardpy,下面简单介绍一下,不过着重点还是一下三点:
阅读全文
posted @
2022-04-24 11:53
小小喽啰
阅读(2028)
推荐(0) 编辑
toad
摘要:本文主要记录一下toad有关的学习资料,以及操作过程 先把连接放上: github主页: https://github.com/amphibian-dev/toad 文档:https://toad.readthedocs.io 演示:https://toad.readthedocs.io/en/la
阅读全文
posted @
2021-08-09 09:39
小小喽啰
阅读(608)
推荐(0) 编辑
基于Dijkstra算法的武汉地铁路径规划(转)
摘要:文章转自:http://wh.bendibao.com/ditie/linemap.shtml # -*- coding: utf-8 -*- """ Created on Thu Apr 1 17:54:34 2021 @author: Administrator """ #!/usr/bin/e
阅读全文
posted @
2021-04-01 19:00
小小喽啰
阅读(175)
推荐(0) 编辑
建模一些问题的解读
摘要:建模tips 1.数值型特征分箱有什么用处? 数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。 特征分箱的目的: 从模型效
阅读全文
posted @
2021-02-25 20:03
小小喽啰
阅读(347)
推荐(0) 编辑
山东-日照分赛场-公积金贷款逾期预测
摘要:数据链接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=26 评分标准:给定一个阀值,可根据混淆矩阵计算TPR(覆盖率)和FPR(打扰率) TPR = TP /(TP + FN) FPR = FP /(FP + TN) 其中,TP、FN、FP、TN分别为
阅读全文
posted @
2021-01-27 15:12
小小喽啰
阅读(619)
推荐(0) 编辑
阿里云金融风控-贷款违约预测建模
摘要:直接附上代码 # -*- coding: utf-8 -*- """ Created on Sat Jan 16 15:18:33 2021 @author: Administrator """ import pandas as pd import numpy as np import matplo
阅读全文
posted @
2021-01-16 19:27
小小喽啰
阅读(616)
推荐(0) 编辑
电信用户建模
摘要:数据来源 电信用户数据:https://www.datafountain.cn/dataSets/35/details# 1.数据概述与可视化 # 模块 import pandas as pd import numpy as np import matplotlib.pyplot as plt im
阅读全文
posted @
2020-09-25 15:16
小小喽啰
阅读(291)
推荐(0) 编辑
Titanic(python)
摘要:数据集中共有12个字段,PassengerId:乘客编号,Survived:乘客是否存活,Pclass:乘客所在的船舱等级;Name:乘客姓名,Sex:乘客性别,Age:乘客年龄,SibSp:乘客的兄弟姐妹和配偶数量,Parch:乘客的父母与子女数量,Ticket:票的编号,Fare:票价,Cabi
阅读全文
posted @
2020-09-24 17:01
小小喽啰
阅读(539)
推荐(0) 编辑
建模技巧
摘要:本文目录 1.数据预处理 2.特征构建 3.特征选择 4.LightGBM模型构建 5.自动调参方法 一.数据预处理 1.1 离群点处理 Tukey Method: 一种利用数据四分位差的检测方法。通过计算特征的 IQR 四分位差,得到 outlier_step=1.5*IQR,如果值大于(上四分位
阅读全文
posted @
2020-09-22 15:52
小小喽啰
阅读(694)
推荐(0) 编辑
阿里云-建模比赛
摘要:数据地址:https://tianchi.aliyun.com/competition/entrance/531830/information 1.导入模块和数据 import pandas as pd import numpy as np import matplotlib.pyplot as p
阅读全文
posted @
2020-09-14 17:20
小小喽啰
阅读(452)
推荐(0) 编辑
阿里云的金融风控-贷款违约预测_模型融合
摘要:模型融合 5.1 学习目标 将之前建模调参的结果进行模型融合。 尝试多种融合方案,提交融合结果并打卡。(模型融合一般用于A榜比赛的尾声和B榜比赛的全程) 5.2 内容介绍 模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差
阅读全文
posted @
2020-09-11 17:52
小小喽啰
阅读(874)
推荐(0) 编辑
阿里云的金融风控-贷款违约预测_建模和调参
摘要:建模与调参 4.1 学习目标 学习在金融分控领域常用的机器学习模型 学习机器学习模型的建模过程与调参流程 4.2 内容介绍 逻辑回归模型: 理解逻辑回归模型; 逻辑回归模型的应用; 逻辑回归的优缺点; 树模型: 理解树模型; 树模型的应用; 树模型的优缺点; 集成模型 基于bagging思想的集成模
阅读全文
posted @
2020-09-11 17:37
小小喽啰
阅读(1401)
推荐(0) 编辑
阿里云的金融风控-贷款违约预测_特征工程
摘要:特征工程 项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl 3.1 学习目标 学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法 学习特征交互、编
阅读全文
posted @
2020-09-11 16:15
小小喽啰
阅读(1916)
推荐(0) 编辑
阿里云的金融风控-贷款违约预测_数据分析
摘要:一、赛题数据 数据大家可以到官网去下载:https://tianchi.aliyun.com/competition/entrance/531830/information需要报名后才可以下载数据 赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超
阅读全文
posted @
2020-09-11 15:21
小小喽啰
阅读(3526)
推荐(0) 编辑
机器学习from(zhouxun-old leader)
摘要:Main: Template.py Template.py 为主要流程部分,依次实现: Train Test Split Missing Imputation Feature Selection Cap and Floor Data Scaling Model Selection Feature R
阅读全文
posted @
2020-08-31 17:10
小小喽啰
阅读(282)
推荐(0) 编辑
Kaggle经典数据分析项目:泰坦尼克号生存预测!
摘要:数据分析练手项目: 开源项目《动手学数据分析》:https://github.com/datawhalechina/hands-on-data-analysis DCIC 2020算法分析赛:DCIC 是国内少有的开放政府真实数据的经典赛事,对能力实践,学术研究等都提供了很好的机会。https://
阅读全文
posted @
2020-08-26 10:12
小小喽啰
阅读(1229)
推荐(0) 编辑
基于机器学习的文本分类NLP基本介绍
摘要:一、学习目的: 1 学会TF-IDF的原理和使用 2 使用sklearn的机器学习模型完成文本分类 二、处理文本方法: 1 One-hot(独热编码) 2 Bag of Words(词袋) 3 N-gram 4 TF-IDF 分数 下面具体介绍每种方法 2.1.one-hot 即将每一个单词使用一个
阅读全文
posted @
2020-08-04 18:53
小小喽啰
阅读(708)
推荐(0) 编辑
数据分析EDA学习总结
摘要:探索性数据分析(Exploratory Data Analysis,EDA):是一种探索数据的结构和规律的一种数据分析方法。 其主要的工作包含: 1 对数据进行清洗, 2 对数据进行描述(描述统计量,图表), 3 查看数据的分布, 4 比较数据之间的关系, 5 培养对数据的直觉和对数据进行总结 ED
阅读全文
posted @
2020-08-03 18:45
小小喽啰
阅读(509)
推荐(0) 编辑
电信用户流失数据分析
摘要:电信用户数据:https://www.datafountain.cn/dataSets/35/details# 将装有该字典的Excel表导入到python中 import pandas as pd dict_name=pd.read_excel('F:\\python\\电信用户数据\\电信用户数
阅读全文
posted @
2020-07-17 16:14
小小喽啰
阅读(2288)
推荐(0) 编辑
天池二手车_特征工程
摘要:前面已经做了类别和连续特征的分析,本文将针对特征工程进行 导入数据 import pandas as pd import numpy as np import matplotlib import matplotlib.pyplot as plt import seaborn as sns %matp
阅读全文
posted @
2020-07-15 18:32
小小喽啰
阅读(533)
推荐(0) 编辑