我胡汉三又回来了---构建金融风控知识图谱

引言

一年多没更新博客了,具体说说这一年干了啥。12.26考完研,然后开始准备写毕设,弄复试。幸运的是上岸了,毕设也结束了。写这篇博客缘由是说一下自己还活着,开始学习了。另一个原因就是简单介绍一下我的毕设(不公开)。

正文

我的毕设是“基于金融风控平台知识图谱的构建”,主要就是构建一个人际关系的知识图谱,采用networkx算法和community算法来对图谱进行操作,分别对应的系统的‘疑似中介’和‘社区发现’。此外训练三个模型:逻辑回归、GBDT、神经网络,取AUC值最高的模型作为最终模型,并对贷款进行预测。关于数据集是贪心学院的一份数据,具体流程也是根据它给的要求做的,自己在做完它的要求又拓展了许多。唯一缺点就是数据是它自己生成的,所以算法和模型的精确度都不算太高。

开发环境

  • 环境:python3.8
  • 数据库:mysql8.0 neo4j3.5.6
  • 编译器:pycharm2019

运行效果

知识图谱的构建

构建用户与用户(根据通话记录映射用户之间的认识关系。),用户与手机号(用户拥有电话),用户与贷款之间的关系(用户申请贷款)。详细构建如下图。

neo4j数据库如下

首页介绍

用户列表

用户列表主要分两个模块,一个是正常用户列表,一个是黑名单用户列表。黑名单列表包括两个功能:黑名单用户的一度关系查询,黑名单用户的二度关系查询。

正常用户列表效果

黑名单列表效果

黑名单的一度关系效果

黑名单的二度关系效果

数据分析介绍

数据分析主要包括三个模块:疑似中介、社区发现和风险评估。疑似中介和风险评估是用networkx算法获取的,社区发现是根据community算法将整个图谱划分成15个社区。

疑似中介效果(二度关系就不展示了,和上述黑名单二度关系类似)

社区发现效果图

风险评估效果图

贷款列表

贷款列表主要包括两个模块,一个是训练集数据展示,一个是对测试集的预测。训练了三个模型,根据交叉验证选取最优参数。

训练集数据展示

测试集数据展示

可以通过贷款方画像,来对贷款人进行审核,查看贷款人的贷款记录、手机号、一度关系等。

数据查询

数据查询主要就是通过给定用户的姓名和手机号,查询用户的一度和二度关系,以表格和关系图的形式表现出来。

一度关系查询效果图

二度关系查询效果图

总结

这篇博客就算是给大学画个句号。9月份就开始要给‘老板’干活了,努力吧!

这篇博客项目无法公开,毕竟是毕设。如果实在有要做的,可以用我截图参考一下。因为这个项目数据集不‘漂亮’,所以有些东西无法做的那么完美。

posted @ 2022-06-06 16:53  littlemelon  阅读(281)  评论(4编辑  收藏  举报