数据科学风云之互联网金融

开场白

大家好,我是jacky,朱元禄,很高兴与大家做直播分享,我一直都认为直播是一种生活方式,是一种通向未来的沟通方式,所以,今天就以直播的方式,跟大家做分享。

今天,我要分享的主题是《数据科学风云之互联网金融》,我会从三个方面跟大家分享:

  • 互联网金融的生存哲学

  • 机器学习、用户画像、语义分析、决策引擎技术在互联网金融中的应用

  • 数据科学构架下的金融风控。


在主题开播之前,我对未来社会发展、进化的方式谈谈我的看法:三句话,跟大家分享:

  • 第一句:五年之后,我们的竞争环境将从人与人的竞争,转变为人与机器的竞争,这是第一句话。

  • 第二句:十年之后,一切生意都将成为数据生意。

  • 第三句:十五年后,这个社会上只有一种道德,叫机器道德,一种数据科学构架下的机器人的道德。

上面的三句话,作为开场白,下面正式开始我的主题分享。


互联网金融的生存哲学

到底什么才是互联网金融?

对于什么是互联网金融的理解,现在的专家、屌丝和普通吃瓜群众的观点差异是很大的,概况起来分为三种观点

  • 第一种观点:“去中介论”

    • p2p,就是个人对个人嘛,但是叫得上纯种P2P模式的金融,现在可能只有拍拍贷一家了,这里我说明一下,我直播的内容涉及到平台名称的,我都是本着客观的心态去说,没哪人任何好处,也不会揭露谁,所以举例的时候,我尽量不去说哪家平台,回到主题,我们说这是互联网金融的第一种理解:去中介。
  • 第二种观点:马云提出的“互联网金融不是金融互联网”

    • 从字面上就很好理解,为了不曲解马云先生的观点,我原文读一下马云的讲演词:

未来的金融有两大机会:一个是金融互联网,金融行业走向互联网;第二个是互联网金融,纯粹的外行领导,其实很多行业的创新都是外行进来才引发的。金融行业也需要搅局者,更需要那些外行的人进来进行变革。
所以,我作为一个外行者,一个不懂金融的人,对金融好奇,不是因为他能赚多少钱,而是因为它可以让很多人赚钱,可以让很多人发生变化。我希望外行人能够参与这个领域,不仅仅是来搅局,而是共同创造一个未来。金融是为外行人服务的,不是自己圈里自娱自乐、自己赚钱的。——《马云》

  • 第三种是媒体观点

    • 媒体观点大都是我们每天接受的关于互联网金融的信息,从我的角度说,我看到的都是本末倒置,黑白颠倒的,这里就不多说了,媒体也让一个本该说的清、很好理解的行业,让人看的很模糊

我们接着马云提出的“互联网金融不是金融互联网”,引出第一板块,互联网金融生存的第个个讨论点

互联网的人格化生存哲学

这部分分享两句话:

  • 第一句话:互联网文化就是屌丝文化

  • 第二句话:互联网金融的出生就是为生存而奋斗

互联网改变了我们的社交方式、改变了我们的行为方式、改变了我们的人性。很多人在线上和线下是两种人格,很难进行统一。线下是禽兽,线上往往是道貌岸然;有些人线下是君子,到了线上就满嘴喷粪。

互联网的文化就是屌丝文化,拿直播平台举例吧,首先这次直播得感谢云学APP给我提供的服务,感谢育茹老师的文案宣传和直播辅助。回到屌丝文化,回到直播平台,我自己本身也是一个屌丝,年龄越大,越希望当一个屌丝,可以更自由,随意的更大家分享,可以不用穿着西服去跟人喝茶握手,其实,做一个屌丝的感觉很好。

其实我本人是反感今日头条和快手直播的,我觉得它们把人类的价值观带入了误区。但是快手直播的用户人数达到了5.6亿,恐怕现在微信的活跃度也就如此吧,快手拿什么取胜,得屌丝者得天下,我们企业的管理者要时刻想着屌丝的需求,

其实这种屌丝文化对于社会来说是一把双刃剑,对于互联网金融企业来说,P2P既是可以融资的好地方,一样是可以诈骗的好地方。人性一旦发生变化,自然也会改变人的生活方式以及行为逻辑,最终导致金融逻辑也发生极大的变化。如何适应互联网文化,对金融机构而言是个极大的挑战。而这个挑战我们不得不面对,就像开场白我说的一样,人类未来会无可避免的面临互联网生活。

上面就是我跟大家分享的第一部分:互联网金融的生存哲学,一句话总结:适者生存,不断进化。

下面跟大家分享这次主题的“主菜”了,数据科学与互联网金融


数据科学与互联网金融

互联网金融行业完完全全是一个数据驱动的行业

互联网金融关键技术环节

整理逻辑

Created with Raphaël 2.1.0可利用数据源用何种技术来挖掘应用这些数据源?上述技术应用到了哪些环节?通过上面的环节,最终实现了数据驱动产品

可利用的数据源

  • 业务数据

    • 公司内部数据:借款人的历史,借款人还款的表现如何
  • 公开数据

    • 在互联网上可以爬取到的数据,如人法失信的信息,某个行业的信息,公司的一些黄页
  • 用户授权数据

    • 如用户消费的历史,用户信用卡的账单

用何种技术来挖掘应用这些数据源?

  • 知识图谱

    • 把数据源经过清洗后,通过知识图谱的方式,把数据很好的组织起来。
  • 决策引擎

    • 作用:通过决策引擎,能够在给用户授信的环节提供决策
  • 机器学习

    • 通用技术
  • 用户画像技术

  • 语言分析技术

上面的技术,在后面的分享我会展开来讲。

上述技术应用到了哪些环节?

  • 营销环境

    • 通过数据的科学手段,找到我们的渠道,找到我们的客户。
  • 信用风险管理

    • 为了给用户授信,我们要通过技术手段判断客户信用风险是怎样的,我们给他多少的额度,多少的期限,多少的费率,这些信用风险管理环节都需要数据科学的技术手段实现。
  • 反欺诈

    • 找出骗贷的人群,加以清理
  • 贷后管理

  • 合规检测

    • 现在监管越来越严,我们要监控我们跟用户交互的各个环节是否合规

我们该如何掌握这些技术?

为什么要讲本部分?
对我们了解业务,提升能力,提高应聘的成功率是很有帮助的,更能帮助学习数据分析和数据挖掘的朋友,厘清学习思路,数据科学领域,我们哪些该学,哪些学习就不要浪费时间了

数据准备

  • 数据准备是会被很多人忽视的一项技术,但是它非常的重要,因为它要为后续的各种技术和业务环节做支撑的。

数据准备包含哪些技术呢?

  • 数据仓库

  • 网络爬虫

  • ID Mapping

数据仓库技术

  • 用途:通过数据仓库技术,我们能把数据很好的管理起来
  • 举例:我们互联网金融的很多数据都放在我们自己的数据库中,针对分散在各处的业务数据,我们需要建立ETL过程,把非结构性数据转换为结构性数据,把数据实时的同步到我们数据库当中。
  • 从业者和应聘者要具备哪些能力和技能?

    • 通常来讲,对于互联网金融企业,整个数据仓库的构架是基于Hadoop工具链的,我们需要掌握Hadoop的集群,掌握Hive(/haiv/).掌握卡夫卡。掌握这些,可以帮助我们完成大数据的这些基础设施的工作。

Hadoop通俗的解释
假如说你有一个篮子水果,你想知道苹果和梨的数量是多少,那么只要一个一个数就可以知道有多少了。
如果你有一个集装箱水果,这时候就需要很多人同时帮你数了,这相当于多进程或多线程。
如果你很多个集装箱的水果,这时就需要分布式计算了,也就是Hadoop。

网络爬虫

前面说过,用户的人法失信,企业黄页,工商的数据,我们要有能力抓下来,具体的过程和教学分享,我在新浪微博 数据分析-jacky,和微信公众号:数据分析部落,都有视频教学的分享,感兴趣的朋友,可以观看一下,都是免费分享的。

ID Mapping

我们拿到的数据都是放在不同的数据源当中的,我们要通过ID Mapping把这些数据做关联,可以根据用户ID关联起来,也可以根据用户的手机号关联起来,或是通过其他的字段关联起来的,做完ID Mapping之后,我们就能形成一个完整的数据视图,供后续的各种技术和环节进行使用。

知识图谱

下面说一说互联网领域“引以为傲”的技术—知识图谱,前面我们说我们通过数据准备,通过ID Mapping,已经把数据关联起来了,但是实际上,这些数据是有很复杂的网状结构的,我们需要把这些数据用知识图谱的形式进行组织。

应用的领域

  • 授信建模

    • 模型构建举例:对用户身份id、电话号码信息进行标准化处理,对地址类信息使用深度学习方法进行匹配,如果借款人在平台的表现很良好,那我们就可以假设,跟他同一地址的人,同一单位人资质就很好。
  • 反欺诈建模

在互联网金融中,很多的交易环节是在线上操作的,我们要在线上,在看不到客户的情况下给客户授信,把我们的贷款放出去,那很多别有用心的人就来了,我们在构架了知识图谱的体系之后,就有很多的技术手段,从图谱中侦破出这些欺诈的案件。

决策引擎

我们在给用户授信的过程中,是要做非常多的决策的,给用户多少的额度,给他什么样的费率,给他多长的期限,这些都需要做决策。

通常,互金企业会使用一些决策引擎软件:

  • 商用的:blaze

  • 开源的:

机器学习

机器学习包括深度学习技术,已经应用到我们互联网金融中的各个环节,从开始的营销、授信、反欺诈,贷中管理,到最后的客服,都用到了机器学习的技术。

授信环节举例:

  • 金融行业很多的特征是比较高级的特征,我们数据科学家一方面开发这些特性进行授信,同时,我们也在非结构数据中使用深度学习技术,从当中提取特征,我们普及下,深度学习本质是特征的学习,这些用深度学习提取出来的方法,我们在跟专家的经验所开发出的特征做一个集成,这样就能达到最优的效果。

反欺诈环节举例:

  • 我们在反欺诈的环节中作声纹识别,有些欺诈人在打电话的过程中,换了不同的号码,我们黑名单里记录的还是他以前老的电话号码,我们用机器学习,用声纹识别的技术,能够识别出他的声音,就可以判定为一次欺诈的事件。

我们也可以通过机器学习挖掘出啊黑产中使用的术语,我们也可以在网络上挖掘贷款中介在网络上留下的电话,以上都是机器学习在发欺诈环节中的一些应用。

营销获客环节举例:

这里可以观看我的免费视频课程,内容很多,就不赘述了。

贷中管理环节举例:

用机器学习预测是否需要提前介入。

用户画像

用户画像跟前面机器学习技术是交互来使用的,比如我们给用户打标签,经常也是机器学习的方法来做的。

应用场景—活动推广

互联网金融企业经常会有一些线上的活动,这些活动通常是根据不同客群来的,我们就要对客户进行分群,针对不同的客户进行研究,,我们就要了解我们客群的整体的画像,我们通过这样一个画像,了解到我们整体面对的客群是什么样的,从而优化我们产品策略,优化我们的市场活动,优化我们客户的策略。

语义分析

在整个互联网金融当中,有很多需要跟客户进行接触的环节,从最开始获客阶段,到后面客服服务的阶段,包括客户没有还款,催收介入的环节,都需要跟客户接触。跟客户接触的过程中,有语音的交互,也有文字的交互,那我们需要了解客户真实意图是什么。

举例来说,某一客户打来电话,向我们咨询问题的时候,我们的知识库里面是有标准答案的,我们通过语义分析的技术,来对语义的相似度进行计算,从而在话术方面给予更优,更快的一个回复

同样,对内来说,语义分析也可以检测我们业务人员的服务质量,互联网金融越来越合规了,我们一线的业务人员跟客户打交道的时候,经常会说一些不太合格的语言,我们通过语义分析,可以分析我们的业务人员跟客户交互的时候都用了什么语言来说。

posted on 2017-08-19 12:34  朱元禄  阅读(123)  评论(0编辑  收藏  举报