大数据风控系统概述
为什么要做风控系统
不做的话,会有以下风险:
- 各种小号、垃圾账号泛滥
- 撞库攻击、盗号、毁号、拖库等
- 拉新 10w 留存率不到 5%
- 百万营销费用,却增加不了用户粘性
- 投票票数差距非常悬殊
- 各种榜单被垃圾账号占领
- 实物奖励被机器人领走
- 红包被秒抢
- 下单不付款占库存
- 虚拟占座
- 刷单炒信
- ……
风控场景
- 营销活动反作弊
防御现金红包奖励、优惠劵促销、电商秒杀等营销活动场景下薅羊毛、黄牛党倒卖等各种欺诈行为
- 内容防盗爬
防御行业竞争数据、高价值内容、隐私数据等被盗爬行为
- 渠道流量反作弊
防御 iOS、国内外 Android 等各类渠道推广流量作弊行为
- 刷榜刷单防护
防御直播热度排行、电商销量排行、热门内容推荐等场景下恶意刷榜刷单行为
- 虚假用户裂变识别
防御拉新、助力砍价、电商拼团等场景下虚假用户裂变行为
- 支付风控
防御盗卡交易、游戏代充等欺诈行为
作弊手段
打接口和虚拟机
这两种手法比较相似,都是用电脑模拟手机等移动设备,以虚假设备信息和网站、APP 的服务器端通信。
这种低成本手段是移动互联网水大鱼大时期的遗留物,铭刻着各平台未对黑产痛下杀手时的“美好记忆”,由于操作简便,不需额外资源,仍是目前主流的黑产手段之一。
识别打接口的主要方式是:引入设备标识判断逻辑,没有任何设备标识信息或信息不正确,就会被判断为打接口“假客户端”。
识别虚拟机的方法:其中一种方法是看 CPU、PC 上虚拟机使用的 CPU 指令集架构和移动设备会有明显差别,如果发现指令集属于 PC 而非移动设备,则识别成功。
设备农场
此后,黑产不得不启用更高成本的新手段——用真实手机作恶,设备农场形态应运而生。
这是与黑产对决的一个长期堡垒,攻防双方的手段交替进化,主要经历下面几个阶段:
简单刷机(通过修改单个设备信息,如 IMEI 号,用一台手机模拟出多个移动设备)、
复杂刷机(通过修改多维度设备信息模拟移动设备)、
Hook 改机(通过劫持系统函数、返还虚假信息模拟移动设备)和
多开(通过劫持系统函数,同时在单台手机上打开几十个相同应用,如几十个微信,提高作恶效率),
把黑产逼到了不得不启用“真机农场”的境地。
而真机农场,就是“老老实实”地把一台手机当做一个设备来用,相比用一台真实设计模拟数个虚假设备,其成本已十分高昂。
反欺诈工程师们也找到了应对真机农场的关键:即便不刷机、不 Hook,群控却依然是黑产无法绕过的核心,所以在对群控多维痕迹进行专门检测后,真机农场也无所遁形。
2018 年的黑产新动向:云手机、硬件插件和积分墙
云手机
2018 年 9 月下旬,云手机横空出世。就像其名称所展示的,这是云计算在黑产界的最新应用。和“云手机”的对决,
云手机和传统设备农场的最大区别是:它背后并不是一个真正的手机,而是一套搭载在云服务器上的虚拟手机。
在云手机加持的新型农场里,场景更加“科幻”——挂在墙上的不再是成百上千的手机,而是一片片装载了安卓的板卡,这些板卡可被电脑群控,模拟正常智能手机的注册、点击、分享等一系列用户行为。
硬件插件
在云计算之外,黑产也开始用起了硬件插件。
大牛是一款可插装在苹果手机上的硬件,它最牛的功能是,是插上之后,能让苹果手机在不“越狱”(开放用户操作权限)的情形下实现改机和篡改 GPS 的目的。
搞清了这个原理后,只要识别出相关特征,大牛也就不牛了。
积分墙
目前这波黑产中最难搞定的 Boss 级手段——积分墙。积分墙其实就是“人刷”,由羊头和羊群协作完成。
厉害的羊头能触及多达万级乃至十万级的职业、半职业羊毛党。一旦有大漏洞出现,羊头就会将消息层层放出,组织大家一起薅——在由各种信号、传输协议连接的“平静互联网”中,羊头引领这支大军,进行着“夺金不用刀”的无声“抢劫”。
电商平台今年初的优惠券漏洞,就可以理解成一次惊动全网的“积分墙”。积分墙的攻防难点在于,背后是真人、真设备。很难识别,这也是我们近期对抗的重点,不过现在也快识别得差不多了。”
识别的方法也自成体系,主要通过团伙特征和行为时序异常等维度来综合判断,再结合通过大数据例行运营挖掘出的积分墙应用,一起做到风险可控。
风控系统解决方案
全链路风控解决方案,包括三大部分:事前预防、事中检测处置、事后分析回馈
- 事前预防:通过数据采集收集用户侧信息、通过业务规则来限定参与活动的门槛、通过身份核验来确认用户身份等手段,防止风险事件的发生。
- 事中检测处置:通过实时在线的手段来检测风险,并做相应的风险处置,防止风险事件的发生。
- 事后分析回馈:基于长周期的离线数据分析,计算用户侧、设备侧、IP 侧、业务侧的各种风险特征,并作用于事前风控和事中风控。
风控主要功能
从数据提供规范、支持规则和社群、黑产库、输出方式等方面提供完整的解决方案
风控引擎主要的工作是识别风险,一般的风控引擎都需要如下几个功能:
- 名单服务:建立黑、白、灰名单;
- 画像服务:建立基于 IP、手机号、账户等层级的画像服务;
- 指标计算:一般包括高频类统计、求和、计数、求平均值、求最大值、求最小值等等;
- 风控模型:基于采集到的数据,建立风控模型,比如:设备模型、行为模型、业务模型等;基于机器学习、深度学习技术来构建业务模型、设备模型、行为模型,或文本类模型(异常地址检测、异常昵称检测)等;
- 规则引擎:最终的风控数据进入规则引擎,由规则引擎判断是否存在风险。风控运营需基于业务建立各种风控规则,以识别风险。
风控系统架构
## 数据采集用户信息/ 设备指纹 / 操作行为 / 网络数据 / 提现数据 /第三方数据
机器学习模型
- 社交网络
欺诈团伙识别,基于手机号、设备、IP,行为等建立时域关联网络,利用社群发现、
风险传播等无监督算法精准防御黑产团伙欺诈行为
- 离群点分析
识别异常频率行为用户,如刷量用户
- 复杂事件处理
基于一些规则模型,检测异常行为。比如信用卡盗刷检测,
识别用户短时间内切换不同地点登陆账户
- 效果评估
准确率 召回率
异常团伙示例
通过机器学习模型生成的团伙行为特征如下所示:
社群成员有相同的手机型号和手机号前缀,且启动时间高度一致,还都在充电,该团伙疑似为设备农场作弊。
规则引擎
根据规则和阈值进行判断,返回用户风控等级,下面为几个规则引擎方案:
-
借助成熟的规则引擎,比如 Drools,Drools 和 Java 环境结合的非常好,本身也非常完善,支持很多特性,不过使用比较繁琐,有较高门槛
-
基于 Groovy 等动态语言自己完成
-
Spark SQL + 规则转化成的 SQL 语句构建规则引擎对用户风控指标进行分级
管理系统
- 指标管理
- 指标组合管理
- 阈值管理
- 名单管理
- 提现审批
参考
https://zhuanlan.zhihu.com/p/84747637
https://www.cnblogs.com/cx2016/p/11647110.html
https://www.jianshu.com/p/a14f1d9a1d9d
https://ixyzero.com/blog/archives/4270.html
更多文章
基于 Apache Flink 和规则引擎的实时风控解决方案