摘要:
1、案例背景
2、分析目的
3、数据说明
4、Python代码实现 阅读全文
摘要:
一、数据挖掘流程介绍 1.数据读取 -读取数据 -统计指标 -数据规模 2.数据探索(特征理解) -单特征的分析,诸个变量分析对结果y的影响(x,y的相关性) -多变量分析(x,y之间的相关性) -统计绘图 3.数据清洗和预处理 -缺失值填充 -标准化、归一化 -特征工程(筛选有价值的特征) -分析 阅读全文
摘要:
Table of Contents¶ 1 驱虫市场潜力分析 1.1 数据处理 1.1.1 导包 1.1.2 读取数据 1.1.2.1 读取各个子类目交易额数据,合并 1.1.2.2 自定义读取单个xlsx文件的函数 1.1.2.3 读取所有文件到列表 1.1.3 依行索引(时间)将所有文件合并到一个 阅读全文
摘要:
一、案例综述 1.数据文件说明 客户相关文件: 1. UserInfo.csv:用户主表 2. RegionInfo.csv:区域表 3. UserAddress.csv:用户地址表 商品相关文件: 1. GoodsInfo.csv:商品主表 2. GoodsBrand.csv:商品品牌表 3. G 阅读全文
摘要:
一、日期时间函数 1.日期格式转化 date_format(active_date,'%Y-%m') ——2020-01year(active_date)*100 + month(active_date) —— 202001date_format(active_date,"yMM") ——20200 阅读全文
摘要:
项目链接:https://nbviewer.jupyter.org/github/lvzw94/Ipynb/blob/master/python爬取拉勾网数据并进行数据可视化.ipynb 阅读全文
摘要:
1.导包 2.提取数据 3.PCA降维 3.1 调用PCA 3.2 绘图 提取两个主成分的累计贡献率达到了0.9777,说明主成分的解释效果较好。 4 贡献率曲线 当参数n_components中不填写任何值时,默认返回min(X.shape)个特征。一般来说,样本量都会大于特征数目,所以什么都不填 阅读全文
摘要:
本文基于Python软件进行评分卡的制作及使用预测。主要包括确定观察时间窗口、确定表现时间窗口、评分卡的制作、新数据的预测四大部分。内容涉及数据清洗、变量筛选、生成WOE 矩阵、IV值计算、ROC曲线、模型建立、模型评估预测等。 数据来源 本项目数据来源于kaggle竞赛Give Me Some C 阅读全文