随笔分类 - data analysis
摘要:最近看了一本《Python金融大数据风控建模实战:基于机器学习》(机械工业出版社)这本书,看了其中第7章:变量选择 内容,总结了主要内容以及做了代码详解,分享给大家。 1. 主要知识点 变量选择是特征工程中非常重要的一部分。特征工程是一个先升维后降维的过程。升维的过程是结合业务理解尽可能多地加工特征
阅读全文
摘要:最近看了一本《Python金融大数据风控建模实战:基于机器学习》(机械工业出版社)这本书,看了其中第6章:变量分箱方法 内容,总结了主要内容以及做了代码详解,分享给大家。 一、 主要知识点: 1. 变量分箱是一种特征工程方法,意在增强变量的可解释性与预测能力。变量分箱方法主要用于连续变量,对于变量取
阅读全文
摘要:最近看了一本《Python金融大数据风控建模实战:基于机器学习》(机械工业出版社)这本书,看了其中第5章:变量编码的方法 内容,总结了主要内容以及做了代码详解,分享给大家。 1. 主要知识点 在统计学中,将变量按照取值是否连续分为离散变量和连续变量。例如性别就是离散变量,变量中只有男、女、未知三种情
阅读全文
摘要:最近看了一本《Python金融大数据风控建模实战:基于机器学习》(机械工业出版社)这本书,看了其中第4章:数据清洗和预处理的内容,了解了代码,觉得写的不错,所以分享给大家。 1. 数据集 德国信贷数据集。官网地址 http://archive.ics.uci.edu/ml/datasets/Stat
阅读全文