数据挖掘提分三板斧-转
摘要:数据挖掘提分三板斧: 1.金斧-数据清洗和特征工程 2.银斧-模型参数调节 3.铜斧-模型集成 数据清洗和特征工程 一、关于数据清洗 1.缺失值处理: 2.异常值处理: 3.数据分桶: 4.数据标准化:在不同的问题中,标准化的意义不同 (1)在回归预测中,标准化是为了让特征值有均等的权重; (2)在
阅读全文
posted @
2021-04-07 10:15
小小喽啰
阅读(205)
推荐(0) 编辑
征信报告上的最近6个月平均使用额度
摘要:https://mp.weixin.qq.com/s/hqOTjNpRejra2kMh2oEB2g
阅读全文
posted @
2021-02-07 15:50
小小喽啰
阅读(1533)
推荐(0) 编辑
征信上的担保类型
摘要:抵押:将物品所有权/收益权/归属权等权益给银行,在不影响物品使用权的情况下,为对应授信提供保证; 组合(不含保证):一般指的是,银行给A授信,B同时担保。A还不了的话,需要裁定A确实还不了了,人不见了或者真没钱了,此时B还钱 组合(含保证):一般指的是,银行给A授信,B同时担保,银行可以直接问AB要
阅读全文
posted @
2021-01-25 15:50
小小喽啰
阅读(1350)
推荐(0) 编辑
信用卡授信额度为0的情况
摘要:信用卡额度为0是什么情况? 一、综合评分不高 当银行在对申请人进行审核的时候,如果申请人达到了申请的条件,但是综合评分并不是特别高,却又有发展潜力的话,银行还是会为申请人批卡的,只是银行为了减小自身风险,给申请人批的卡额度就会为0。 二、准贷记卡 人们在去申请信用卡时,有时银行会为申请人批一张准贷记
阅读全文
posted @
2021-01-22 10:10
小小喽啰
阅读(1032)
推荐(0) 编辑
征信报告
摘要:一、征信报告中,最近2年的还款计划出现的符号 二、信用卡还款状态 2.1信用卡呆账 一般的信用卡呆账形成的原因有两种,第一种就是信用逾期,也就是我们常见的没有按时还款。在信用逾期之后,银行一般会先进入催收程序,但是不排除有有些人,即便是银行不断催收,依旧不还款的。这样,信用卡就会处于长期的呆滞状态,
阅读全文
posted @
2020-12-28 10:42
小小喽啰
阅读(312)
推荐(0) 编辑
中国各年度行政分区数据处理
摘要:我们很多时候需要对用户省份证前6位数据进行解析,首先看一下前六位数据构成 1、第一、二位,代表省(自治区、直辖市、特别行政区)。 2、第三、四位,代表市(地级市、自治州、盟及国家直辖市所属市辖区和县的汇总码)。其中,01-20,51-70表示省直辖市;21-50表示地区(自治州、盟)。 3、第五、六
阅读全文
posted @
2020-12-11 11:33
小小喽啰
阅读(39)
推荐(0) 编辑
写函数思路
摘要:1.dict的反转 #主要思路,不写表达式,在表达式直接放在return def reverse_dict(d): ''' 就是字典的反转,key,value互换,但是注意value不能有重复值 ''' return {value:key for key,value in d.items()} 2.
阅读全文
posted @
2020-12-09 20:33
小小喽啰
阅读(37)
推荐(0) 编辑
机器学习模型偏差与拒绝推断的Python实现
摘要:幸存者偏差 风险分析的本质是使用部分样本分布估计总体分布。在风险建模的过程中,普遍存在着幸存者偏差(Survivorship Bias)。其含义为,使用局部样本代替总体样本时,局部样本无法充分表征总体样本的分布信息,从而得到错误的总体估计 在风控架构体系中,多次涉及样本被拒绝或客户流失等问题。由于风
阅读全文
posted @
2020-11-25 09:54
小小喽啰
阅读(1550)
推荐(0) 编辑
决策树转为hivesql语句部署
摘要:首先生成一个决策树,然后画出决策树,再将决策树条件转化成hiveSQL语句进行部署,并非所有公司有部署决策树的环境,这时候可以使用SQL去部署 首先创建一个dt_main.py,主要是决策树方面的,代码如下: #!/usr/bin/env python # coding: utf-8 # In[ ]
阅读全文
posted @
2020-11-24 09:48
小小喽啰
阅读(502)
推荐(0) 编辑
toad标准化评分库
摘要:toad是由厚本金融风控团队内部孵化,后开源并坚持维护的标准化评分卡库。其功能全面、性能稳健、运行速度快、问题反馈后维护迅速、深受同行喜爱。如果有些小伙伴没有一些标准化的信用评分开发工具或者企业级的定制化脚本,toad应该会极大的节省大家的时间 github主页:https://github.com
阅读全文
posted @
2020-11-23 19:54
小小喽啰
阅读(3651)
推荐(0) 编辑
风控模型6大核心指标(附代码)
摘要:目录 Part 1. 生成样本Part 2. 计算AUC、KS、GINIPart 3. PSIPart 4. 分数分布Part 5. 完整工程代码 正文 在我们开发完信用分模型后,经常需要计算如下的一些指标: ● 区分度的指标: ○ AUC ○ KS ○ GINI ● 稳定性的指标: ○ PSI ●
阅读全文
posted @
2020-11-04 10:03
小小喽啰
阅读(2236)
推荐(0) 编辑
使用python计算vintage
摘要:from hinnc,添加了后面的 if __name__ == '__main__' # -*- coding: utf-8 -*- """ Created on Mon Jan 14 18:57:19 2019 @author: hinnc """ import numpy as np impo
阅读全文
posted @
2020-10-31 13:35
小小喽啰
阅读(1990)
推荐(0) 编辑
备忘
摘要:1.SDS决策引擎https://wenku.baidu.com/view/5b519fc458f5f61fb73666bb.html 2.近200篇机器学习&深度学习资料分享(含各种文档,视频,源码等)https://yq.aliyun.com/articles/584854?spm=a2c4e.
阅读全文
posted @
2020-10-14 18:17
小小喽啰
阅读(122)
推荐(0) 编辑
淘宝 反作弊体系结构
摘要:一、淘宝 反作弊体系结构 淘宝反作弊体系结构可以从数据、算法、和系统三个维度来解释 数据:主要是将识别的作弊数据汇总到买家、宝贝、订单和卖家 四个维度并全量提供给了数据平台供各业务方使用,即可用作算法训练样本的特征,也方便系统查询和监控作弊数据的趋势变化情况; 算法:覆盖了包括账号网、交易网、资金网
阅读全文
posted @
2020-10-13 17:02
小小喽啰
阅读(1163)
推荐(0) 编辑
geohash
摘要:geohash基本原理是将地球理解为一个二维平面,将平面递归分解成更小的子块,每个子块在一定经纬度范围内拥有相同的编码,这种方式简单粗暴,可以满足对小规模的数据进行经纬度的检索 目录: 经纬度常识 认识geohash geohash算法 geohash原理 对照表 经纬度常识 经线是纵的,经度是横的
阅读全文
posted @
2020-10-13 16:56
小小喽啰
阅读(881)
推荐(0) 编辑
模型部署
摘要:http://spark.apache.org/docs/1.6.0/mllib-guide.html
阅读全文
posted @
2020-10-13 16:46
小小喽啰
阅读(99)
推荐(0) 编辑
AB测试原理及样本量计算的Python实现
摘要:前言 为了对比不同策略的效果,如新策略点击率的提升是否显著,常需要进行A/B测试。但测试是有成本的,样本量小时不能判断出差异是否是由抽样误差引起,样本量太大时如果效果不好则会造成难以挽回的损失。如何科学地选择样本量呢?需要了解A/B测试的统计学原理 一、 A/B测试的统计学原理 (一)大数定律和中心
阅读全文
posted @
2020-10-12 12:25
小小喽啰
阅读(4349)
推荐(1) 编辑
数据分析-A/B test
摘要:一、A/B test AB测试是为产品的界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。 进行AB实验能够有利于优化用户体验,提升漏斗或者
阅读全文
posted @
2020-10-12 10:56
小小喽啰
阅读(1719)
推荐(0) 编辑
数据分析-分类分析
摘要:前言 我们做分析时经常要多人群分类,特别是做用户画像时经常用到,将对象划分为不同部分或者类别,在进一步分析,就能够挖掘事物的本质 一、分类分析 根据指标的性质,分类分析法分为属性指标分组和数量指标分组 1.属性指标分组分析法 按属性指标分组一般较简单,分组指标一旦确定,组数、组名、组与组之间的界限也
阅读全文
posted @
2020-10-12 10:20
小小喽啰
阅读(2518)
推荐(0) 编辑
数据分析-漏斗模型(AARRR模型)
摘要:前言 最近在做数据分析岗面试技巧时有提及到分析思维,之前都没有总结过,现在专门来总结一次。数据分析思维有漏斗思维,分类思维,平衡思维,A/B test等,主要是应聘运营岗时会涉及到。下面就介绍一下漏斗模型 一、漏斗模型 百科给出的解释:营销漏斗模型指的是营销过程中,将非潜在客户逐步变为客户的转化量化
阅读全文
posted @
2020-10-10 17:31
小小喽啰
阅读(10734)
推荐(2) 编辑