测试数据的整理(1)
“星文快投”的目标,始终都是想做一个投标工具,不涉及策略。但事与愿违,没有数据支撑,所有操作都变得像在迷雾中前行,既不知道前进方向,也不知道前面是否有大坑等着。所以,还是尝试着用一些实际数据,来衡量所选择的策略,至少能够提供量化的对比作为参考。
关于数据,拍拍贷提供了数据接口LoanList和BatchListingInfos,不过当下主要任务是对策略的最核心属性——逾期率分析,这些接口更加适合抓取最新的标的,对历史标的抓取并不好。关键是——数据太新的话,其实是不准的,这个在后面的试用中可以看到。
我选用了拍拍贷竞赛提供的数据,包含了成交时间从2015年1月1日到2017年1月30日的328553支信用标的样本数据,不仅有标的特征表,还有标的还款计划和还款记录。简单说,包括了32万个标的,320万条还款数据。由于是真实数据的样本,具有很高的参考价值。
还款计划表
但是,官方数据也存在问题,主要有:
1、标的特征表字段不全。比BatchListingInfos获取的字段要少很多,意味着无法使用所有属性来构造策略了。
2、一些属性对不上号。如淘宝认证。
针对这个问题,费了很大功夫,对数据进行了处理,补齐了所有字段,得到了一个投标样本数据库,包含了32万条真实标的数据,以及这些标的到2017-2-22时的还款情况。在此,不得不称赞一下sqlite,处理这么大的数据,非常轻松。
对真实数据计算逾期率,非常有趣。另外,也能发现逾期率与借款时间有很强的相关性。但我需要的只是一个具有相对可靠性的评估,能够量化比较不同策略的效果即可,所以并不打算进行非常详细的逐月比较。最终,我选择的是一段相对稳定的时间,2016年4月以前的453天的数据,这段时间逾期率处于稳定状态。
最后,简单提一下实现。策略的评估是非常高频而极度消耗资源的任务,所以把它放在另外的服务器上,不会影响到主服务器上的投标效率。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」