随笔 - 384  文章 - 0  评论 - 35  阅读 - 142万

随笔分类 -  建模例子

1 2 下一页
scorecardpy 介绍
摘要:前语:平时计算变量IV值时也有调用过scorecardpy库,不过总体来说使用次数不多,对此功能也不是很熟悉,一般都是使用自己内部的库,但是涉及到去其他公司建模,或者是一个封闭的环境时,常常不能使用自己的东西,这就得使用toad或者scorecardpy,下面简单介绍一下,不过着重点还是一下三点: 阅读全文
posted @ 2022-04-24 11:53 小小喽啰 阅读(2028) 评论(0) 推荐(0) 编辑
toad
摘要:本文主要记录一下toad有关的学习资料,以及操作过程 先把连接放上: github主页: https://github.com/amphibian-dev/toad 文档:https://toad.readthedocs.io 演示:https://toad.readthedocs.io/en/la 阅读全文
posted @ 2021-08-09 09:39 小小喽啰 阅读(608) 评论(0) 推荐(0) 编辑
基于Dijkstra算法的武汉地铁路径规划(转)
摘要:文章转自:http://wh.bendibao.com/ditie/linemap.shtml # -*- coding: utf-8 -*- """ Created on Thu Apr 1 17:54:34 2021 @author: Administrator """ #!/usr/bin/e 阅读全文
posted @ 2021-04-01 19:00 小小喽啰 阅读(175) 评论(0) 推荐(0) 编辑
建模一些问题的解读
摘要:建模tips 1.数值型特征分箱有什么用处? 数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。 特征分箱的目的: 从模型效 阅读全文
posted @ 2021-02-25 20:03 小小喽啰 阅读(347) 评论(0) 推荐(0) 编辑
山东-日照分赛场-公积金贷款逾期预测
摘要:数据链接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=26 评分标准:给定一个阀值,可根据混淆矩阵计算TPR(覆盖率)和FPR(打扰率) TPR = TP /(TP + FN) FPR = FP /(FP + TN) 其中,TP、FN、FP、TN分别为 阅读全文
posted @ 2021-01-27 15:12 小小喽啰 阅读(619) 评论(0) 推荐(0) 编辑
阿里云金融风控-贷款违约预测建模
摘要:直接附上代码 # -*- coding: utf-8 -*- """ Created on Sat Jan 16 15:18:33 2021 @author: Administrator """ import pandas as pd import numpy as np import matplo 阅读全文
posted @ 2021-01-16 19:27 小小喽啰 阅读(616) 评论(0) 推荐(0) 编辑
电信用户建模
摘要:数据来源 电信用户数据:https://www.datafountain.cn/dataSets/35/details# 1.数据概述与可视化 # 模块 import pandas as pd import numpy as np import matplotlib.pyplot as plt im 阅读全文
posted @ 2020-09-25 15:16 小小喽啰 阅读(291) 评论(0) 推荐(0) 编辑
Titanic(python)
摘要:数据集中共有12个字段,PassengerId:乘客编号,Survived:乘客是否存活,Pclass:乘客所在的船舱等级;Name:乘客姓名,Sex:乘客性别,Age:乘客年龄,SibSp:乘客的兄弟姐妹和配偶数量,Parch:乘客的父母与子女数量,Ticket:票的编号,Fare:票价,Cabi 阅读全文
posted @ 2020-09-24 17:01 小小喽啰 阅读(539) 评论(0) 推荐(0) 编辑
建模技巧
摘要:本文目录 1.数据预处理 2.特征构建 3.特征选择 4.LightGBM模型构建 5.自动调参方法 一.数据预处理 1.1 离群点处理 Tukey Method: 一种利用数据四分位差的检测方法。通过计算特征的 IQR 四分位差,得到 outlier_step=1.5*IQR,如果值大于(上四分位 阅读全文
posted @ 2020-09-22 15:52 小小喽啰 阅读(694) 评论(0) 推荐(0) 编辑
阿里云-建模比赛
摘要:数据地址:https://tianchi.aliyun.com/competition/entrance/531830/information 1.导入模块和数据 import pandas as pd import numpy as np import matplotlib.pyplot as p 阅读全文
posted @ 2020-09-14 17:20 小小喽啰 阅读(452) 评论(0) 推荐(0) 编辑
阿里云的金融风控-贷款违约预测_模型融合
摘要:模型融合 5.1 学习目标 将之前建模调参的结果进行模型融合。 尝试多种融合方案,提交融合结果并打卡。(模型融合一般用于A榜比赛的尾声和B榜比赛的全程) 5.2 内容介绍 模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差 阅读全文
posted @ 2020-09-11 17:52 小小喽啰 阅读(874) 评论(3) 推荐(0) 编辑
阿里云的金融风控-贷款违约预测_建模和调参
摘要:建模与调参 4.1 学习目标 学习在金融分控领域常用的机器学习模型 学习机器学习模型的建模过程与调参流程 4.2 内容介绍 逻辑回归模型: 理解逻辑回归模型; 逻辑回归模型的应用; 逻辑回归的优缺点; 树模型: 理解树模型; 树模型的应用; 树模型的优缺点; 集成模型 基于bagging思想的集成模 阅读全文
posted @ 2020-09-11 17:37 小小喽啰 阅读(1401) 评论(0) 推荐(0) 编辑
阿里云的金融风控-贷款违约预测_特征工程
摘要:特征工程 项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl 3.1 学习目标 学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法 学习特征交互、编 阅读全文
posted @ 2020-09-11 16:15 小小喽啰 阅读(1916) 评论(0) 推荐(0) 编辑
阿里云的金融风控-贷款违约预测_数据分析
摘要:一、赛题数据 数据大家可以到官网去下载:https://tianchi.aliyun.com/competition/entrance/531830/information需要报名后才可以下载数据 赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超 阅读全文
posted @ 2020-09-11 15:21 小小喽啰 阅读(3526) 评论(0) 推荐(0) 编辑
机器学习from(zhouxun-old leader)
摘要:Main: Template.py Template.py 为主要流程部分,依次实现: Train Test Split Missing Imputation Feature Selection Cap and Floor Data Scaling Model Selection Feature R 阅读全文
posted @ 2020-08-31 17:10 小小喽啰 阅读(282) 评论(0) 推荐(0) 编辑
Kaggle经典数据分析项目:泰坦尼克号生存预测!
摘要:数据分析练手项目: 开源项目《动手学数据分析》:https://github.com/datawhalechina/hands-on-data-analysis DCIC 2020算法分析赛:DCIC 是国内少有的开放政府真实数据的经典赛事,对能力实践,学术研究等都提供了很好的机会。https:// 阅读全文
posted @ 2020-08-26 10:12 小小喽啰 阅读(1229) 评论(0) 推荐(0) 编辑
基于机器学习的文本分类NLP基本介绍
摘要:一、学习目的: 1 学会TF-IDF的原理和使用 2 使用sklearn的机器学习模型完成文本分类 二、处理文本方法: 1 One-hot(独热编码) 2 Bag of Words(词袋) 3 N-gram 4 TF-IDF 分数 下面具体介绍每种方法 2.1.one-hot 即将每一个单词使用一个 阅读全文
posted @ 2020-08-04 18:53 小小喽啰 阅读(708) 评论(0) 推荐(0) 编辑
数据分析EDA学习总结
摘要:探索性数据分析(Exploratory Data Analysis,EDA):是一种探索数据的结构和规律的一种数据分析方法。 其主要的工作包含: 1 对数据进行清洗, 2 对数据进行描述(描述统计量,图表), 3 查看数据的分布, 4 比较数据之间的关系, 5 培养对数据的直觉和对数据进行总结 ED 阅读全文
posted @ 2020-08-03 18:45 小小喽啰 阅读(509) 评论(0) 推荐(0) 编辑
电信用户流失数据分析
摘要:电信用户数据:https://www.datafountain.cn/dataSets/35/details# 将装有该字典的Excel表导入到python中 import pandas as pd dict_name=pd.read_excel('F:\\python\\电信用户数据\\电信用户数 阅读全文
posted @ 2020-07-17 16:14 小小喽啰 阅读(2288) 评论(0) 推荐(0) 编辑
天池二手车_特征工程
摘要:前面已经做了类别和连续特征的分析,本文将针对特征工程进行 导入数据 import pandas as pd import numpy as np import matplotlib import matplotlib.pyplot as plt import seaborn as sns %matp 阅读全文
posted @ 2020-07-15 18:32 小小喽啰 阅读(533) 评论(0) 推荐(0) 编辑

1 2 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示