金融风控中第三方数据源应用

金融风控中第三方数据的应用

当前,全球正经历着科技与产业高度融合、深度叠加的新变革,随着大数据技术的深入发展以及综合应用,银行、消金、小贷等金融机构,或者信贷行业内许多金融科技公司,大多在利用大数据进行风控,并根据需求利用多维度数据来识别借款人风险,维度包括不限于:社交类数据、消费类数据、行为类数据、多源银行账户数据等。

但是在常见的风控流程中,客户准入时提供的资信材料有限,业务机构风控数据体量不足。而仅仅根据内部风险数据进行风险评估会非常片面,导致无法全面的把控某位客户的风险情况,所以通常需要依赖于第三方供应商提供数据作风控支撑。

1. 数据市场概述

国际著名信息研究机构IDC Financial Insights发布了2020年“FinTech Fast 101”榜单。该报告详细列出了中国、印度、新加坡、澳大利亚等11个国家和地区(不包括日本)101家快速发展的金融科技企业。其中,中国有包括蚂蚁金服、拉卡拉、京东金融、平安金融等在内的41家企业上榜。

近年数据市场的变化:

1)合规化:202012月底鹏远征信被监管、《征信业务管理办法》会议审议通过,自202211日起施行;

2)多元化:入围头部玩家增加,BATJ及其子公司之外,国家电网、联洋国融等入池。

2. 数据采购范围

数据分析时出现此类困惑,主要原因是未明确数据分析的目的和主题。

采购数据的细分种类繁多,在开展数据分析工作前,应当首先确定分析的目的和主题,一是可确定后续的数据分析范围、分析对象、研究的关键问题等,二是避免数据分析偏离方向,导致最终效果与预期出现偏差。

2.1常见的数据类型

这些第三方数据大体可以划分为以下几类:身份核验、名单类、行为类、信用评分类、客户画像类等。

2.1.1身份核验类:

通过验证客户申请信息之间的关联关系,来判断客户的风险。

1)姓名、年龄、性别、学历、邮箱、地址、职业等;

2)身份证二要素、手机号三要素验证、银行卡四要素;

3OCR认证、活体检测;

(学信网、上海社保、济南社保、青岛社保、惠民征信、青岛公积金、济南公积金)

2.1.2名单类

黑名单:

1)违约风险名单:信贷逾期、用途风险、不良客户、长期拖欠客户、重点催收客户;

2)欺诈风险名单:恶意欺诈、垃圾账号、资料虚假、疑似存在欺诈历史、同行中介;

3)多头风险名单:征信多头、机构多头;

4)特殊名单:涉诉名单、法院被执行人名单、政府失信名单、限制高消费名单;

(高院黑名单、总行反洗钱名单、风险前筛、百融法院)

 

白名单:

1)征信正常,无逾期历史的优质贷款客户;

2)特定公司、职业、收入客户;

3)从未发生借贷记录的客户;

2.1.3行为类

征信数据:

1)查询记录:查询原因、查询次数;

2)信贷记录:未结清、未销户账户数;发生过逾期的账户数;发生过90天以上逾期的账户数:

3)公共记录:欠税记录、民事判决记录、强制执行记录 、行政处罚记录、电信欠费记录;


逾期数据:

1)逾期金额、历史逾期总次数、逾期未还款行为、最大逾期金额、最大逾期天数、逾期机构数、履约机构数、异常还款机构数;

2)多头数据,包括多头申请、多头拒贷、多头放款、多头逾期、信用状态/负债报告等;

(上海资信、联洋国荣、同盾、百行征信)

2.1.4评分类

1)信用分:包含信用卡、现金分期、小微等多场景及维度的信用评分,评估被查询人在各个场景及维度的还款能力及信用情况。

2)欺诈分:包含信用卡、现金分期、小微等多场景及维度的欺诈评分,识别被查询人在各个场景及维度的欺诈风险及还款意愿。

(普惠评分、百融评分)

2.1.5客户画像类

1)人行征信画像:基于人行征信报告的客户画像;

2)运营商画像:三大运营商消费数据;

3)电商消费画像:消费频次、消费金额、消费产品、出行记录等;

4)设备画像:设备环境、设备行为、设备采集、设备名单等;

3. 数据采集来源

3.1常见数据运营商

常见的数据供应商,可提供的产品服务包括数据、模型、风控流程搭建及优化咨询服务等,比如:

1)专业类:

人行、百行、互金协会等。这些都属于正规军,接入需要一定的门槛,数据价值大,可信度高。

2)专属类:

腾讯、蚂蚁金服、度小满金融、京东数科、致诚阿福、融360等;各大平台、电商、政府专属领域基于自己用户的信息数据。譬如电商交易数据,政府税务数据,电信通话数据等,一般不对体系外输出。价值最高,市场供给少。

3)综合类:

同盾、百融、鹏元等。最早期做数据的厂商。各机构在使用他们数据同时,也反哺自己的平台数据。逐渐形成一个庞大的反欺诈、黑名单、多头借贷数据库。

4)设备类:

数美、猛犸、极光、友盟、同盾科技、游族网络等;这些基于手机埋点或SDK,获取手机设备信息,APP信息等。

5)评分类:

冰鉴、可信、探知、中诚信、同盾、百融、白骑士、中智诚、拉卡拉、FICO、北京华道征信等;基于多方信息,进行评分输出。

6)爬虫类(不合规不合法):

爬取各电商平台、交易网站客户信息,进而进行大数据分析。前些年个人隐私法保护后,目前市场少见,但在部分领域还有小众存在。

7)支付类:

行业整顿后数据质量下降。

3.2数据供应商选择标准

1) 持续稳定:优质的股东背景,拥有国家对信息安全认证整数且达到较高级别;

2)数据合规:拥有合法、合规的数据来源,能够提供数据授权文件;

3)数据真实:数据源真实可靠,数据内容未经篡改或加工;

4)信息准确:数据解析准确,避免出现乱码、错位、错值、空值等数据错误;

5)覆盖完善:所供数据覆盖范围完整,数据完备程度高,可制成业务决策;

6)更新及时:数据返回时间、数据更新时间符合业务需求;

7)价格合理:数据收费模式合理。

4. 数据采购方式

4.1商务洽谈

由信贷机构的商务人员,根据业务需求寻求新的数据厂商和新的数据产品,同三方数据厂商建立沟通关系,“考察三方数据供应商背景”、“熟悉三方数据供应商数据产品”、“签订保密协议”。

4.1.1公司调研:

考察三方数据供应商背景主要是分析合作公司的业务类型和规模,并调研合作供应商的数据合规情况,数据的合规使用是风控数据接入的基础,也是数据使用的前提

4.1.2数据产品分析:

主要是先对三方数据供应商提供的数据产品进行初步了解,主要偏向于对数据产品业务层面的理解,通常包含熟悉数据产品的类型和作用,了解数据产品的基本信息如数据源情况、是否一手数据、更新频率、覆盖度、稳定性等指标,以及深入了解数据产品的打造方法和风控效力。

4.1.3签订保密协议:

无论是数据提供方还是数据采购方,都应当尽快签订保密协议,为当前的敏感内容沟通作基础以及后期的数据测试作准备。

4.2数据测试

完成商务接洽以及保密协议的签订,了解好三方数据供应商的数据产品基本情况后,即可开展三方风控数据的测试,风控数据的测试主要由策略模型工程师主导。

4.2.1测试需求分析

1)外部需求:

明确“测试产品名称、条数、是否免费、是否支持回溯、加密方式、参数提交方式”等条件;

2)内部需求:

明确“测试样本数量分组(Y值)、条数、费用”等条件。其中内部测试样本数量分组是核心,需要充分考虑样本后期的纵向/横向对比。数据的测试不仅是只测试某一家厂商的数据,随着不断地丰富风控数据产品,测试的相似数据产品会越来越多,并且随着时间的推移,不同时间段的同性质客户的数据表现也会存在不同,因此在测试需求初期就应考虑到后期数据分析的纵向/横向对比。

4.2.2测试方案制定

主要包含测试目标制定、测试样本的数量和分组设计、测试形式/分析形式/结果呈现的设计、测试数据审批。

其中的重点是测试目标的确定,没有目标的测试只会是浪费时间,只有一开始就确定好目标,所有的方案制定都以目标为导向,再充分地考虑后期较多数据的联合分析,兼具当下任务和远期规划最终使得测试高效、快捷,例如在测试验证数据产品的时候最好在样本中加入真实数据,又或者在选取样本的时候让贷前产品样本和贷中产品样本关联等。测试方案制定好后即可进行测试入参数据的提取审批流程。

4.2.3测试实施

相对简单,准备好测试入参并讲清楚相关条件即可提交到三方数据厂商,剩下的就是等待结果的返回以及测试进度的跟踪。

4.2.4测试结果分析

根据不同的数据产品分析的侧重点不同。

如名单/策略类产品,分析数据产品的目的主要是实现产品在规则策略上的应用,分析的指标涵盖查得率、交叉率、误杀率、有效拒绝率、准确率、精准率、召回率等。

如评分和风险等级类产品除去类似名单/策略类产品的分析,还包括分析woeIV值、ROCKS、相关性(皮尔逊相关系数)、卡方检验等指标。分析完成后,最后根据分析的测试结果,输出数据产品评估报告。

4.3合作对接

测试结果分析完成,确认需要接入的数据产品,相应的商务人员就可开始进行完成数据产品价格的确定,以及合同期限、接入协议的签订的商务洽谈。

(1) 产品价格确定:

确定产品的接入价格,目的是明确价格的收费方式如按照查得收费还是查询收费,按照人数收费还是次数收费,重复调用的收费、重复调用的时限、重复调用的界定条件等问题,最后敲定产品价格并进行采购流程审批。
2接入协议签订:

产品接入协议的签订,在价格确认好后即可开展。主要涉及的内容是盖章、用印、请款等流程,其中的重点是数据授权协议的变更,一家新的数据厂商或者新的数据产品的接入都都需要配套的完成数据授权协议的调整。

4.4技术接入

技术接入主要是指三方数据产品的接口接入,接口的接入可以通过接口管理功能模块快速实现。

4.4.1接入文档获取:

通常由产品经理协调沟通,涉及的内容包含但不限于正式环境/测试环境的接口文档、AppKeyIP白名单、接口计费原则等。

4.4.2接入需求分析:

是技术接入的核心,通常包含数据产品的分析、接口交互的分析、接口监控的分析。

1)数据产品的分析:

是指数据产品接口文档的业务解读分析,如接口文档回传回来的码值含义是什么、业务意义是什么,该分析主要是策略模型工程师主导,通过分析接口文档的具体内容设计相应的指标需求;

2)接口交互的分析:

是指对接口文档的调用方式分析,如接口的调用存在同步或者异步的情况,决策引擎的决策一般都是实时计算,那异步的交互调用应该怎么解决,如果通过延长接口的等待时长是否可以解决,如果延长等待时长是否又会造成业务端调用超时等系列接口交互问题,该分析主要是研发工程师主导,通过分析接口交互确定研发方案;

3)接口监控的分析:

是指对监控接口是否正常运作的分析,包含监控指标、监控方案的梳理和确定,如有效请求、无效请求、异常请求、超时请求等指标的明确,异常信号的报警方案明确等,该分析主要是产品经理主导,通过监控分析输出接口监控需求。

4.4.3接入开发实施:

是对需要接入的数据产品进行技术接入,包含接口技术接入、风控指标创建、接口监控开发、接口测试等任务。最终通过开发实施,实现数据产品在策略模型中的应用,为决策引擎的自动化计算作准备。

4.5数据运营

数据运营实际就是已经接入开始使用的数据产品的维护。

4.5.1数据异常监控:

数据异常监控分为广义的异常和狭义的异常,广义的异常运营是指所有能够影响接口稳定性的事项维护,例如三方数据接口的更新上线、三方数据接口数据源波动等事情的沟通和通知,狭义的异常运营是指接口调用异常等紧急预警事项的处理、维护。

4.5.2数据费用请款:

对数据使用费用的充值,其流程固定简单,通常都有固定的请款流程。

4.5.3数据账单核对:

是一种固定的日常工作,主要是定期地对接入的三方数据进行费用核对,三方数据厂商的费用核对一般都是一个月进行一次。

二、三方风控数据的测试评估(了解)

在金融信贷领域中,风控是整个产品业务的核心,而对于风控体系的架构与完善,最重要的是数据。因此,如何体现信贷产品风控流程的决策效果,拥有多个维度且有效的数据尤为关键,这也是金融机构在开展业务过程中的焦点工作之一。

对于银行、消金、小贷等金融机构,或者信贷行业内许多金融科技公司,在构建产品风控体系的过程中,三方征信数据是很重要的数据来源,尤其是针对线上信贷产品,三方多维数据的采纳与应用,已经成为一种开展业务的必然选项。三方征信数据的综合应用,如多头借贷、银联交易、电商消费、设备信息等维度,可以有效提高风控策略或模型的决策效果,从而实现产品业务更大收益的目标。但是,在金融机构正式引入三方数据之前,为了有效评估数据产品的业务价值,需要对数据进行较全面的测试。

1. 业务背景及数据概况

现结合某真实业务场景案例,给大家介绍下如何从多个维度对一份三方风控数据进行测试评估。

假设某商业银行拟引入外部某三方数据征信机构的一款数据产品,以应用于银行信贷产品的风控数据体系中,即通过数据分析方式挖掘特征的信息价值,并将其转化为策略规则、模型评分等形式,部署到线上风控决策流程中,从而实现数据应用的风控效果。在数据产品引入之前,银行的数据分析人员需要结合本方存量用户数据,对三方数据产品进行测试评估,从多个维度评估数据的综合应用效果,从而为银行是否采用此数据产品提供理论分析依据与业务采纳参考。

 

 

 

 

1 数据测试业务流程

1为数据测试的整个业务流程,其中在数据获取环节,首先是银行通过提供测试样本加密主键id、回溯日期date至三方数据机构,然后数据提供方经数据回溯返回测试样本数据,最后银行方数据分析人员将测试样本的贷后表现标签与测试数据进行匹配,得到一份完整的待评估测试数据。数据集整体结构的部分样例,具体如下图2所示。

 

2 测试数据集部分样例

测试样本数据集的文件格式为excel,样本数量为8000条,特征数量为8个。其中,字段iddateflag为银行方特征,其余5个字段均来源于三方数据机构,也是本文后续测试内容的评估对象,测试数据具体的特征字典如图3所示。

3 数据特征字典

采用Python语言工具将本地excel测试数据导入到开发环境中,有必要对数据进行一个初步探索,可以比较直观地了解测试数据的EDA统计分布等情况,便于后续解决方案的构思,以及对测试数据的业务理解,部分代码与实现结果分别如图4、图5所示。

4 数据探索部分代码

 

5 数据EDA分布

2. 解决方案及评估分析

根据测试样本数据概览可知,待评估的5个特征中,字段is_blacklist(是否黑名单)为核验类特征,取值二分类(1代表命中,0代表未命中)。其余4个字段均为标签类特征,分别描述用户在信用能力、消费能力、出行能力、稳定能力各个维度的信息指数,取值范围为01,取值越大,反映用户在对应维度方面的资质表现越好。这些字段的标签含义,在三方数据机构返回测试数据时,会同步提供一份测试字段的说明文档,便于银行数据分析人员的测试评估与业务理解。

在测试评估数据效果的工作流程中,解决方案的构思是一项特别重要的环节,只有综合考虑测试数据特征的分布类型与业务情况,才能分析得到一套有效且合理的解决方案。现结合本次案例的测试数据特征情况,本文将从以下9个维度依次对待评估特征进行测试分析,评估指标分别为“三率”、“三性”和“三度”,具体业务含义与加工逻辑如图6~8所示。

 

6 评估维度之“三率”

 

7 评估维度之“三性”

 

8 评估维度之“三度”

2.1覆盖率

覆盖率是针对整个数据集的样本观测而言,这也是所有评估特征维度的第一步。覆盖率=已匹配样本数量/分析总样本数量,其中已匹配样本数量(num_nmiss=全部评估特征不全为空的样本数量,分析总样本数量(num_total)为固定数据8000条。覆盖率=num_nmiss/num_total=(num_total-miss_all)/num_total,这里只需要算出全部评估特征全为空的样本数量miss_all,便可得到样本数据的覆盖率。覆盖率的具体实现代码如图9所示,分析结果如图10所示。

 

9 覆盖率实现代码

 

10 覆盖率分析结果

从覆盖率分析结果来看,99.025%这个数值说明此测试数据的覆盖率是很高的,在实际业务场景中,在大多情况下,三方征信数据的覆盖率能达到90%以上,就可以满足业务需求。

2.2缺失率

缺失率是对于每个待评估特征字段而言,需要分别算出每个评估特征的缺失情况。缺失率=特征缺失值样本数量/分析总样本数量,其中特征缺失值样本数量(num_miss)为评估特征缺失的数量,分析总样本数量(num_total)为固定数据8000条。缺失率的具体实现代码如图11所示,分析结果如图12所示。

 

11 缺失率实现代码

 

12 缺失率分析结果

从缺失率结果来看,各特征的缺失率范围为1%左右,这个数值在实际业务中是完全可以接受的。一般情况下,特征的缺失率低于10%都是可以满足业务需求的。

2.3准确率

准确率是针对核验类特征而言,如黑名单、要素验证、信息核对等,由于本案例有1个特征is_blacklist(是否黑名单)为核验类特征,因此可以采用准确率指标对其评估。准确率=验证一致样本数量/分析总样本数量,其中,验证一致样本数量是指用户真实标签(好/坏)与黑名单(否/是)相对应的样本数量,即“好”用户对应“非”黑名单,“坏”用户对应“是”黑名单;分析总样本数量(num_total)为固定数据8000条。准确率的具体实现代码如图13所示,分析结果如图14所示。

 

 图13 准确率实现代码

 

14 准确率分析结果

从准确率结果来看,说明特征is_blacklist(是否黑名单)的准确率是比较高的,若需要进一步分析此类核验特征的准确效果,可以再行探究“误中率”指标,误中率指将“好”用户命中为“是”黑名单的样本数量/分析总样本数量,一般情况下,当核验类特征的准确率很高时,误中率往往表现较低。在实际业务中,可以进行综合考虑与分析。

2.4相关性

由图5数据特征的分布类型可知,待评估特征均为连续型,因此分析各字段的相关性,可采用pearsonspearman等系数。pearson(皮尔逊)、spearman(斯皮尔曼)系数是衡量两个连续变量之间的线性相关性程度,系数取值范围为[-1,1],正值代表正相关,负值代表负相关,系数的绝对值越大,说明变量之间的相关性越强。相关性的具体实现代码如图15所示,分析结果如图16所示。

                                            

 

 图15 相关性实现代码

 

 图16 相关性分析结果

从特征的pearson相关性结果来看,各特征之间的相关性程度较低,系数最大值为consume_abilitytravel_ability0.492802。在实际业务中,当特征之间的pearson系数小于0.5时,说明特征的线性相关性程度很低。在某些情况下,如特征变量池的字段较少,相关系数的评定标准可以放宽至0.7。本案例待评估特征的相关性分析结果,是可以满足实际业务需求的。

2.5预测性

评估特征的预测性,是通过特征对目标变量的信息贡献度指标IV来分析的。信息值IVInformation Value)的值越大,说明特征的预测能力越强。特征IV值的计算,首先需要对特征进行分箱处理,根据分箱区间的好坏分布算出各区间的IV,最后将区间IV求和,便可得到特征的最终IV值。现以待评估字段credit_ability(信用能力指数)为例,其预测性的具体实现代码如图17所示,分析结果如图18所示。

 

17 预测性实现代码

 

 图18 预测性分析结果

根据以上推导特征预测性IV的逻辑步骤,可以编写自定义函数对所有评估特征进行IV指标批量输出,具体代码如图19所示,实现结果如图20所示。

 

 

19 IV批量实现代码

 

 

20 IV批量实现结果

从所有特征的IV结果来看,都可以满足实际业务需求。一般情况下,当特征IV值大于0.02时,认为对目标变量有一定预测性,可以考虑在特征筛选环节中进行分析,而当特征IV值大于1时,往往认为存在异常可能,需要进一步探究。本案例对于特征is_blacklist(是否黑名单)IV值达到1.941时完全符合实际情况的,前边在分析准确率维度时,特征is_blacklist的准确率达到了78.09%,因此在IV指标上的表现自然比较高。对于其他特征,IV值范围为0.02~0.08,虽然预测性并不是很强,但在实际应用中,是可以接受并采用的。

2.6解释性

维度解释性是从业务上评估特征的效果,具体来讲,解释性是指特征分布趋势与实际业务理解是否匹配。在维度5-预测性的分析过程中,通过特征分箱已经得到特征各区间的分布情况,这里可以直接采用相关数据结果,来进行探究数据分布的变化趋势。现以待评估字段credit_ability(信用能力指数)的分布情况为例,具体如图21所示,根据各区间的好坏用户数可以得到区间的坏账率(bad_rate),指标直接反映了区间样本风险程度的高低。

 

21 特征区间分布

 

22 特征变化趋势

从特征credit_ability(信用能力指数)的分布趋势可知,随着用户信用能力指数的增加,坏账率逐渐降低,这个是符合实际业务理解的。因为用户的信用能力指数越高,代表用户的信用度越好,违约概率较越低,坏账率自然呈现下降的趋势。根据以上分析逻辑,同样可以得到其他评估特征的分布变化趋势,从而判断特征的解释性是否合理。

2.7区分度

评估特征的区分度,可以通过模型KSAUCGini等指标来分析,这里引入模型思路来评价特征,是将每个待评估特征作为一个模型,从而将模型指标映射到特征指标来进行分析。本案例选取KS指标来评估特征的区分度,KSKolmogorov Smirnow)表示模型分布区间好坏样本累计部分之间的差值,KS值越大,说明模型的区分能力越强。现以待评估字段credit_ability(信用能力指数)为例,其区分度的具体实现代码如图23所示,分析结果如图24所示。

 

23 区分度实现代码

 

24 区分度分析结果

根据以上推导特征区分度KS的逻辑步骤,可以编写自定义函数对所有评估特征进行KS指标批量输出,具体代码如图25所示,实现结果如图26所示。

 

25 KS批量实现代码

 

 图26 KS批量实现结果

从所有评估特征对应模型的指标KS结果来看,都可以满足实际业务需求。一般情况下,当单个特征对应模型KS值大于0.02时,说明特征具有一定区分度,可以在实际应用中进行保留。其中,特征is_blacklistKS明显较高,这是此特征准确率较高的体现。

2.8重要度

特征的重要度是通过决策树模型算法,分析得到每个特征对模型的重要性系数importance,此系数取值越大,说明特征对模型效果的重要性越强。重要度的具体实现代码如图27所示,分析结果如图28所示。

 

27 重要度实现代码

 

28 重要度实现结果

从特征的重要度importance系数结果,可以很直观地看出各个特征对模型效果的重要程度,其中特征stable_ability(稳定能力指数)的重要度表现较低。在数据测试期间分析特征的重要度指标,有助于了解待引入数据特征在后期实际模型应用环节的价值。

2.9稳定度

特征的稳定度指标,是为了评估特征在不同样本分布的波动性大小,衡量指标为PSIPopulation Stability Index),其系数取值越小,代表稳定度越好。PSI的计算公式为:sum((样本a区间i占比-样本b区间i占比)*ln(样本a区间i占比/样本b区间i占比))

因此,要得到特征的PSI,需要有2个前提条件,一个是有2个不同的数据样本,另一个是特征进行分箱。对于特征分箱,在前边分析特征的预测性和区分度时,已生成特征的区间分布,可以将其逻辑直接进行采用。而对于不同样本的选取,本案例则根据字段date进行划分,测试数据全样本的date共有4种情况取值,分别为2021/062021/072021/082021/09,可以将2021/062021/07对应的数据划入date1样本,2021/082021/09对应的数据划入date2样本,接下来对比特征在2个时间窗date1date2的数据分布,评估特征在时序维度下的稳定程度。现以待评估字段credit_ability(信用能力指数)为例,稳定度的具体实现代码如图29所示,分析结果如图30所示。

 

29 稳定度实现代码

 

30 稳定度分析结果

根据以上推导特征稳定度PSI的逻辑步骤,可以编写自定义函数对所有评估特征进行PSI指标批量输出,具体代码如图25所示,实现结果如图26所示。

 

31 PSI批量实现代码

 

 

32 PSI批量实现结果

从所有评估特征的PSI指标结果来看,都可以满足实际业务需求。一般情况下,当指标PSI小于0.1时,认为特征在不同数据样本的稳定性较好。本案例分析的特征,其PSI最大值为0.018,与业务场景中常采用的阈值0.1还有较大差距,说明评估特征的稳定性均表现较好。在实际工作场景中,PSI指标也是模型效果监测与优化的一个重要分析维度。

3. 数据测试总结

本文结合金融信贷领域的实际业务场景,通过Python语言工具,对某三方测试样本数据依次进行了9个维度的综合测试评估,分别为覆盖率、缺失率、准确率、相关性、预测性、解释性、区分度、重要度、稳定度,汇总各个维度的评价指标结果如图33所示。

 

33 评估维度指标汇总

综合测试样本数据的评估维度结果指标,可以很直观地了解到各个特征的效果表现,为公司是否采用此数据产品提供了理论依据与价值参考,这在实际业务场景中是非常重要的。同时,这份数据评估测试的结果报告,在对接引入数据后的特征应用有一定借鉴意义,包括策略规则开发、评分模型建立、客户画像描述等。

因此,在金融信贷领域中,三方风控数据产品的测试评估是一项基础且重要的工作内容。测试过程涉及到的知识与方法,在数据分析流程和业务熟悉理解等方面,都可以有效提高数据分析的综合能力。

posted on 2022-06-06 18:48  一只小白two  阅读(1831)  评论(1编辑  收藏  举报