互联网金融中的数据挖掘技术应用

本文来自网易云社区

在金融行业中,客户关系管理、风险计量与管理、精准营销、交易执行、安全与反欺诈等所需的业务分析都需要大数据分析与挖掘,而这些正是实现迅速和科学决策的核心基础。大数据时代背景驱动的金融行业转型主要体现在实现严格有效的监管、机构精细化管理、业务创新提高竞争力等三大方面。而大数据技术正是实现这些目标的扎实基础。

大数据不仅为金融机构掌握客户全方位信息提供了可能,通过大数据技术分析和挖掘客户的交易和消费历史掌握客户的消费行为与习惯,并准确地预测客户倾向,有针对性地提供推荐和服务,能够提升客户满意度。另一方面,大数据技术能通过跟踪新闻、微博等典型的非结构化、半结构化数据捕捉政治、经济等方面的变化对市场的影响。这些非结构化数据、半结构化数据经过处理后能够转化成结构化数据,并参与到自动交易的决策辅助中来。

数据挖掘的三大任务是分类、聚类、关联规则,由于不同的数据形式同这三个方面的结合又产生了一些交叉领域。

2007 年的IEEE 国际数据挖掘大会(ICDM)通过调查认定了10 种受到广泛认可的算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、Naive、Bayes 和CART。常见的分类任务算法有:决策树、logistic回归、神经网络、支持向量机、多目标线性规划等。

Logistic 回归分析是一种二分类的多元回归方法,是判断某件事情是否发生的传统工具,在各个领域都取得了较为广泛的应用。

人工神经网络具有自学习和自适应能力,可通过预先提供的一批相互对应的输入—输出数据,分析掌握两者间的规律进行应用和预测。最流行的神经网络算法是20 世纪80 年代提出的向后传播算法。

支持向量机(SVM)和多目标线性规划(MCLP)都是基于最优化数据挖掘的方法。SVM 是由Corinna Cortes在解决小样本、非线性及高维模式识别中表现出很多特定优势,能够推广到各种分类问题。目前最优化数据挖掘方法已经在个人信用评分、客户流失管理、金融衍生品结算风险管理等金融大数据挖掘项目中成功应用。

聚类算法主要有层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法。K-means 方法将n 个对象根据它们的属性分为K 个簇。

关联规则最为有名的应用是“啤酒尿布”的购物篮应用案例。而在金融领域中,借鉴这样的思想实现捆绑营销并非难事。关联规则算法中最流行的Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法,能够找到所有支持度大于最小支持度的项集,即频繁项集。

 

其实,数据挖掘的方法和技术就可以用于大数据时代企业决策模式的重新制定。其中最重要的方法之一是“跨行业数据挖掘过程标准”(CRISP-DM)。它是一个通用的数据挖掘框架,已普遍被许多数据分析的软件公司采用。在大数据背景下CRISP-DM 同样适用,只不过处理的是更大、更复杂的大数据。

人民银行个人信用评分模型就是大数据挖掘技术在风险管理中的典型应用。该信用评分模型系统称为中国评分(ChinaScore)。它由我国信贷结构的七组评分模型组成,目前在各大商业银行运行良好。该评分系统利用全国各大金融机构的所有个人信贷账户的住房贷款、汽车贷款、信用卡等的历史信息(人数超过6000 万,数据积累超过3 年),运用先进的数据挖掘和统计分析技术,通过对消费者的人口特征、信用历史记录、行为记录、交易记录等大量数据进行系统的分析,挖掘出蕴含在数据中的行为模式。

工商银行则运用大数据技术进行客户流失分析和管理。客户流失分析的目的是通过现有客户使用产品的情况及各种信息,预测客户在之后一段时期是否会流失,从而为其提供针对性的服务,实施挽留措施。在客户流失分析中,客户的特征主要由活期存款、定期存款、中间业务、贷款业务、贷记卡业务、国际贷记卡业务和客户基本资料等7类信息描述。其中包括客户使用各业务的产品特性、交易行为描述和客户自身的年龄性别等。

随着金融大数据特征在大数据时代的日益明显,监管上和业务上的需求也越来越复杂,无论是对科研界还是实业界都提出了新的要求和挑战。

在银行业,大数据时代再次挑战了银行的数据驾驭能力。除了传统的结构化数据,来自物联网、互联网的非结构化数据将彻底颠覆银行收集各类数据的理念和现有的方法。而在处理数据方面,非结构化数据,例如客户录音数据等等难以用传统的方法描述,度量、计算、处理难度都大。

在证券业,国内绝大部分的证券公司仍以关注宏观经济、行业动态、基本数据、交易性数据等结构化数据为主进行分析。大数据时代,社交网络这一大类数据源成为价值隐藏的另一大宝库。文本挖掘提取等处理非结构化数据的方法让舆情分析结合现有的数据研究上市公司的走势成为可能。在客户分析上的探索,证券业要远落后于银行业,发展滞后。是否可以将产品的生命周期与客户的生命周期相结合,获取更多的数据来作为分析的基础?投资者购买什么样的证券产品是否除了客观个性特征外能够反映主观的风险容忍度和风险承担意愿?是否能够根据这样的划分设计定制化的产品?我相信这些都将是大数据时代为证券业带来的新的增长点。

在保险业,过去是“样本精算”,大数据时代变成了“全量数据”。保险的本质内涵是理解风险并控制风险,在这一点上,大数据将颠覆整个保险业的商业模式。传统保险经营关注的风险维度,不足以反映世界的复杂性。以车险为例,目前的定价因素仅仅考虑了性别、年龄和职业,然而显然这样的认识远不能刻画一个人开车的风险。因此仅靠“样本精算”采用的大数定律远远不够,如何利用客户其他信息,包括网络以及政府公开的数据等这几个大数据的重要来源,达到个性化风险控制和定价是值得深思的问题。

 

目前数据挖掘在各行各业应用广泛,尤其在金融、保险、电子商务和电信方面得到了很好的效果,下面简单阐述一下在金融行业数据挖掘的应用。

(1)风险控制(贷款偿还预测和客户信用评价)

有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素和非相关因素。例如,与货款偿还风险相关的因素,包括货款率、贷款期限、负债率、偿还与收入(payment—to—income)比率、客户收入水平、受教育程度、居住地区、信用历史等等。而其中偿还与收入比率是主导因素,受教育水平和负债率则不是。银行可以据此调整货款发放政策,以便将货款发放给那些曾被拒绝但根据关键因素分析,其基本信息显示是相对低风险的申请者。

(2)交叉销售(业务关联分析)

通过关联分析可找出数据库中隐藏的关联网,银行存储了大量的客户交易信息,可对客户的收入水平、消费习惯、购买物品等指标进行挖掘分析,找出客户的潜在需求;并对各个理财产品进行交叉分析,找出关联性较强的产品,从而对客户进行有针对性的关联营销,提高银行业绩。

(3)客户市场细分

根据银行大量的客户资料以及客户存储款情况,利用有效的聚类或者协同过滤,将客户有效地划分为不同的组,使得具有相同存储和贷款行为的客户分为一组,从而可以对每一组总结各自每个组的特点,对每个组开展有针对性活动。

此外,针对不同的客户类型(例如大客户类型,潜在价值高,但是忠诚度很难保持)设计出量体裁衣的产品组合、沟通方式,以及客户服务,从而达到提高客户忠诚度、实现关联销售、最优化定价、产品直销、产品再设计,以及渠道管理的目的。而这些目标的实现,致使客户管理总体成本降低,客户关系得以改善,最终成功实现零售业务块利润率的提高。

(4)客户价值分析

根据“二八原则”,找出重点客户,即对银行创造80%价值的20%客户实施最优质的服务,通过对客户金融产品的使用频率以及持续性等指标判断客户的忠诚度。

(5)客户流失预警

根据客户属性特征、存储款、贷款、金融产品使用等数据,运用数据挖掘技术,找到流失客户的共同特征,从而针对具有相似特征的客户还未流失前,进行有针对性的弥补或者营销活动,从而起到避免客户流失到其他公司的作用,起到稳定本企业客户的作用。

(6)新客户开发以及新产品推广

通过探索性的数据挖掘方法,如自动探测聚类和购物篮分析,可以用来找出客户数据库中的特征,预测对于银行营销活动的响应率。那些被定为有利的特征可以与新的非客户群进行匹配,以增加营销活动的效果。

数据挖掘还可从银行数据库存储的客户信息中,可以根据事先设定的标准找到符合条件的客户群,也可以把客户进行聚类分析让其自然分群,通过对客户的服务收入、风险、成本等相关因素的分析、预测和优化,找到新的可赢利目标客户。

(7)贷款偿还预测

贷款偿还预测对银行业务相当重要的。贷款偿还风险相关的因素包括贷款率,贷款期限,负债率(月负债总额与月收入总额之比),偿还与收入比率(payment-to-income),客户收入水平,受教育水平,居住信息,信用历史等等,通过数据挖掘预测手段,可以提早预测哪些用户有可能偿还违约,哪些用户曾经贷款被拒但是预测结果却是低风险。

(8)客户评分

评分技术是银行业广泛使用的一项技术,包括风险评分、行为评分、收益率评分、征信局评分以及客户评分等。评分技术是将客户的海量信息数据运用有效的数据挖掘和处理手段,对各种目标给出量化评分的一种手段,以征信局评分为例。要达到建立征信局评分的目标,首先要建立起集中的数据仓库,其中涵盖了申请人的各种特征,银行提供的所有产品,包括存款、贷款、信用卡、保险、年金、退休计划、证券承销,以及银行提供的其他产品,甚至包括水电煤气、电话费、租金的缴纳情况等。

(9)反洗钱活动

金融交易活动是洗钱犯罪行为的一个重要环节,通过分析金融机构的客户信息和交易数据,运用合适的数据挖掘方法,介乎客户背景,识别出可疑金融交易记录,最后根据贝叶斯判定原理,综合各个层次的可疑信息,得到交易记录的整体可疑度,最终为反洗钱监测提供快速准确的参考。

(10)其他决策支持

比如营销活动预演,理财产品收益以及效果评估,多维分析报告等等。

海量用户数据对于未来金融应用业务将非常关键,有大量的社交、支付、理财数据通过云计算还有专业的分析挖掘,能够为金融机构大幅的降低运营成本,还有服务成本,并提升风控的能力。

 

利益相关:网易猛犸大数据平台作为一站式的应用开发和数据管理平台,通过大数据开发套件,将数据开发、任务运维、自助分析、数据管理、项目管理等工作通过工作流的方式有效的串联起来,提供敏捷易用的用户操作界面,降低了大数据分析的使用门槛,显著的提高了数据开发工程师和数据分析师的工作效率。猛犸大数据平台在电商、音乐、云课堂学习、企业工业制造等领域已广泛应用,基于持续的需求驱动,通过多行业的业务验证,同时丰富全面的组件,提供完善的平台能力,满足不同类型的业务需求。

在对数据的分析处理过程中,数据的安全重要性不言而喻。猛犸平台底层使用Kerberos认证,实现了数据的安全性和隔离性。除了认证系统,利用Ranger实现了细粒度的权限控制,保证了各个租户只能查看授权访问的表、库和字段。不仅如此,平台还提供审计功能,通过对用户平台行为进行记录、分析和汇报,用来帮助对事故追根溯源,提高了平台的安全性。点击可免费试用

 

原文:请问如何将数据挖掘技术应用于互联网金融?

posted @ 2018-07-23 15:56  网易数帆  阅读(1632)  评论(0编辑  收藏  举报