测试数据的整理(1)

“星文快投”的目标,始终都是想做一个投标工具,不涉及策略。但事与愿违,没有数据支撑,所有操作都变得像在迷雾中前行,既不知道前进方向,也不知道前面是否有大坑等着。所以,还是尝试着用一些实际数据,来衡量所选择的策略,至少能够提供量化的对比作为参考。

关于数据,拍拍贷提供了数据接口LoanList和BatchListingInfos,不过当下主要任务是对策略的最核心属性——逾期率分析,这些接口更加适合抓取最新的标的,对历史标的抓取并不好。关键是——数据太新的话,其实是不准的,这个在后面的试用中可以看到。

我选用了拍拍贷竞赛提供的数据,包含了成交时间从2015年1月1日到2017年1月30日的328553支信用标的样本数据,不仅有标的特征表,还有标的还款计划和还款记录。简单说,包括了32万个标的,320万条还款数据。由于是真实数据的样本,具有很高的参考价值。

image

还款计划表

但是,官方数据也存在问题,主要有:

        1、标的特征表字段不全。比BatchListingInfos获取的字段要少很多,意味着无法使用所有属性来构造策略了。

        2、一些属性对不上号。如淘宝认证。

        针对这个问题,费了很大功夫,对数据进行了处理,补齐了所有字段,得到了一个投标样本数据库,包含了32万条真实标的数据,以及这些标的到2017-2-22时的还款情况。在此,不得不称赞一下sqlite,处理这么大的数据,非常轻松。

image

对真实数据计算逾期率,非常有趣。另外,也能发现逾期率与借款时间有很强的相关性。但我需要的只是一个具有相对可靠性的评估,能够量化比较不同策略的效果即可,所以并不打算进行非常详细的逐月比较。最终,我选择的是一段相对稳定的时间,2016年4月以前的453天的数据,这段时间逾期率处于稳定状态。

最后,简单提一下实现。策略的评估是非常高频而极度消耗资源的任务,所以把它放在另外的服务器上,不会影响到主服务器上的投标效率。

posted @ 2017-08-28 16:05  jetz  阅读(279)  评论(0编辑  收藏  举报