融360蒋宏:自动化特征工程和自动建模在风控场景的应用
01 背景和问题
目前,模型开发的流程越来越规范化,通常可以分为业务分析、样本准备、特征工程、模型构建、模型评估及监控这几个步骤。其中,特征工程和模型构建在建模的整个流程中依然非常耗时,并且非常依赖于模型开发者对业务的理解及数据处理的能力。
在目前实际业务场景下,面临的最大的一个问题是,如何快速地构建起一个质量相对不错的模型,以适应业务的快速发展。传统的风控建模周期较长,通常要20天左右的时间才能达到上线的要求。其中,特征工程的耗时在整个建模过程中会占到大约60%的时间,且这个过程的挑战就是人工提取特征的复杂性和高时间耗费性。自动化特征工程能够对必要而繁琐的工作进行自动化处理,从而优化机器学习模型的构建和部署,这样模型的开发者就可以更多地关注其他重要步骤。另一方面,模型开发过程的耗时在整个建模过程中会占到大约30%的时间。这个过程的难点并不在于给出一个模型,而是在于同时比较多种模型甚至多种模型组合后,选出效果最佳的模型做主决策模型,其余的模型可以作为备用模型或者比较对象。这个过程如果用人工去实现,也会消耗非常多的时间,并且效果不一定最优。
基于这样的背景,融360推出的自动化特征工程和自动建模的方案,把建模过程中耗时最长的特征工程部分和模型开发部分抽象出了一套自动化工具。不仅集成了自动特征工程,还对建模过程中变量的筛选、建模调优、部署上线和模型监控进行了模块化的封装。该工具有如下优点:
① 大幅提升建模效率和标准化程度;
② 节约人力成本和时间成本;
③ 快速达到业务方要求;
④ 有利于尝试更多的模型方案和模型快速更新迭代。
通过自动化特征工程和自动建模方案后,模型从开发到上线的时间大幅减少,可以缩短至5天左右,不仅简化了开发流程,提升了开发效率,准确率方面也保持较高水准。
--
02 自动化特征工程
首先,我们先来看一下手动特征工程是如何完成特征工程这个过程的。人工构建特征工程主要依赖领域知识来构建特征,一次只能产生一个特征,这是一个繁琐,费时又易出错的过程。此外,每次进行特征工程的代码是针对特定业务和特定场景的。当我们面对新的需求、新的数据源时,我们需要重构特征,重新进行开发,耗时长效率低。
因此,特征工程若要能够实现自动化和标准化,其数据在结构上必须要具有一定的相似性和共通性。根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:
① 最近一次消费(Recency);
② 消费频率(Frequency);
③ 消费金额(Monetary)。
在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状况。
在融360的业务场景下,更多的数据是交易级别的数据。那么,根据RFM模型构建出来的特征通常包含基本的统计变量,趋势型的变量等。例如,通话的时间段可以分为白天或者夜晚,通话类型可以分为主叫、被叫或者未接,交易金额总和、次数等等,这些都属于统计型变量。而类似于近3个月比近6个月的通话次数减少了多少,这是趋势型变量。
不仅是结构化数据,在关系网络中也可以通过RFM模型构建特征。如下图所示是一个简单的关系网络。应用RFM模型,可以构建出例如某用户有多少1度联系人,1度联系人中是否有过借贷行为,平均借款金额,以及其中有多少人有逾期记录等特征。
综合以上分析过程,可以将自动化特征工程的过程抽象成如下图所示的框架。首先,根据不同的数据类型,采取不同的处理方式。如果是分类变量,可以切分成不同的数据模块,用统计型或者标识型的方法去处理,完成第一层的聚合运算,生成基本的统计特征。那么在第二层中,会对基本的统计特征采取比值计算和趋势计算的一些方法,衍生出新的变量。
回顾特征工程的整体过程,有了自动化特征生成工具之后,模型开发者关注的重点不再是构建能够通过简单运算得到基本的统计特征,而是能够有更多的时间关注数据本身。而需要人工处理的部分仅是从原始数据到把数据标准化的过程,后续的特征自动组合、计算,以及评估到输出都实现了自动化的过程。
下图所示是某项目中,自动化特征工具和人工构建特征在同一数据集上的比较。可以看到,自动化特征相对人工特征效果明显提升且耗时更短。当然,开发自动化特征工具的目标并不是为了替代人工,而是希望自动化特征工具能够快速并且准确地提供一版基础特征,从而把人力更多地投入到对原始数据的理解以及对业务分析中,或者构建出更多衍生的特征。
--
03 自动建模
尽管不同的数据样本和不同的模型选择,得到的结果会有较大差异。但各项指标综合来看,目前不管是国内外的数据竞赛,或者是回归到公司业务本身,xgboost和lightGBM依然是适用性最好,表现最优的算法之一。而在信贷场景下,LR因其较好的解释性,也被广泛使用。因此,自动化建模工具整合了常用的算法,针对建模过程中通用性较高的部分进行了模块化的封装。这样极大地提升了开发效率,并且可以将更多的时间用于尝试不同的模型。
1.自动特征选择部分:
首先,自动通过EDA(Exploratory Data Analysis)对特征进行初步筛选,例如筛选掉缺失率较高,方差恒定不变,在时间维度上不够稳定等特征。其次,自动综合多种常用算法和规则,进一步筛选出有效的特征。例如:
① IV值筛选;
② 树模型输出重要性;
③ 共线性筛选。
最后,选择出综合排序TopN,以及各个类别中排名靠前的特征。可以把几千维度的特征降低到几百个维度的范围内,并且在减少特征的同时,保留特征的多样性。
2.建模部分
逻辑回归模型(LR)
LR在信贷场景下,通常用于构建评分卡模型。首先回顾一下逻辑回归实现评分卡的理论基础。
一个事件发生的几率(odds),是指该事件发生与不发生的概率的比值。若一个用户违约的概率是p,则其正常的概率为1-p。可以得到:
此时,客户违约的概率p可以表示为:
而评分卡的表达式为:
其中,A和B为常数。通过给定 (1)某特定Odds时的Score值(2)该特定Odds值翻倍时Score增加值,带入评分卡表达式即可求得A、B。
而根据逻辑回归的原理可推导出该事件的对数几率如下:
因此,构建评分卡的问题转化为利用逻辑回归模型求概率的问题,最后根据概率转化成评分卡的分数。
构建评分卡模型中最关键的步骤是WOE分箱,分箱的好坏直接影响最后模型的效果。传统的处理方式是,人工根据特征的业务含义,对特征进行一些粗分箱。抽象成自动化工具后,统一对特征进行等频分箱后做WOE变换,并且进行单调性检测。同时,也保留了人工操作的接口,可以自由调整分箱的边界,达到更优的效果。
- XGBOOST
xgboost是目前应用最广泛的算法之一。不仅在多种竞赛场合取得非常好的成绩,在工业界也有广泛应用。在自动化建模的过程中,为了能让xgboost发挥出更好的效果,需要针对入模变量做额外的预处理。连续变量虽然可以直接入模,但为了减少过拟合,依然对连续变量进行了分箱处理。而分类变量则不能直接入模,可以通过决策树进行分箱的操作,或者通过各种编码方式对变量进行转换,例如标记编码,one-hot编码等等。
除了对入模的特征实现预处理,自动化建模工具还集成了更全面的调参方法,包括:设置多组经验参数、GridSearch、RandomSearch等,这个过程也是人工调参中耗时较长且重复性较高的步骤之一。
--
04 自动化模型评估与监控
在完成模型开发后,最重要的一个环节就是模型评估与模型的监控。在各种数据竞赛中,评估一个模型的好坏,通常会用AUC、KS等指标。但在实际场景中,模型上线后需要关注的不仅仅是这些模型的评估指标。更加需要关注的是模型整体的排序性和稳定性。在不同的业务场景下,对模型的要求也不一样。例如,在欺诈检测的场景下,会希望模型在低分段有更好的区分度。反之,如果要做授信额度策略,则会期望模型在高分段有更好的区分度。
自动化模型评估在实现全面、细致、快速地评估模型效果方面,主要涵盖了以下三个方面:
① 跨维度:变量维度、模型分维度;
② 跨样本:Train、Test、OOT、Early Performance等;
③ 跨模型:当前线上模型、不同版本新模型。
跨维度层面,包括对特征的监控以及特征对模型结果的影响。除了关注模型的基本监控指标AUC、KS、PSI、Ranking等,在变量维度,还会关注变量随着时间的变化,排序性是否下降,PSI是否升高,以及特征是否对模型结果产生了负面影响等因素。
跨样本层面,由于在模型开发的过程中,经常会使用比较成熟的表现期的样本,例如MOB6进行建模,但在评估模型的时候,可以用MOB1的样本进行跨期测试,用来判断模型的早期效果。
跨模型层面,不同的模型有不同参数,会针对不同的模型进行比较。看当前线上的模型和新版本模型之前的效果差异。
最后,根据以上三个维度的评估,会进行加权求和,输出模型最终的综合评分以及模型相关内容的文档,包括模型表现的汇总、特征分箱的结果、变量的PSI、变量与逾期率的关系等内容。
--
05 模型部署上线及线上监控
相较于传统的写python脚本完成从训练、预测到输出结果的模型上线方式,目前更常用的方法是输出模型文件,线上的部署环境支持读取和调用模型文件。但融360开发了针对模型部署的平台,省略了开发模型部署的脚本。模型自动输出配置文件,只需将配置文件放如新模型的文件夹中,就可以轻松完成上线部署,实现自动评分。并且配置文件具有简洁和良好的可读性等优点。
模型上线后的线上监控也是非常重要的环节之一。如果模型的监控仅依赖于各个模型的owner,那么会产生非常多的问题,例如不能及时发现AUC、PSI等模型指标的变化,缺失对特征变化的监控,模型何时需要重新训练,更新迭代等等。针对这些问题,融360开发了自动化模型监控工具,实现标准输入,标准输出。新模型配置监控不再需要重写代码,只需配置文件即可。
模型的每日监控会与模型上线时候的指标做对比。一方面,整体监控KS、AUC、PSI、排序性等指标是否发生变化,另一方面,关注每个变量在训练时的分箱与上线后的分箱的差异,看特征的分布是否发生了偏移,实现自动预警。
当监控发生报警时,会提醒模型开发者哪些地方出现了问题,从而能够及时响应。例如,当变量发生偏移的时候,考虑是否是数据源发生了波动,业务客群是否发生变化,是否需要与产品团队、策略团队进行对接等问题。
最后,模型的监控以三种形式输出:监控周报、定时预警以及模型效果可视化。
今天的分享就到这里,谢谢大家。
本文首发于微信公众号“DataFunTalk”。