每日总结
- 讲.csv文件放入pychar工程文件,用决策树来完成问题企业的判断
使用pandas读取文件
选取目标值与特征值(企业id,买入卖出的数量。Label为有问题企业代码)
缺失值处理
数据集划分
字典特征抽取
决策树预估器
模型评估
结果:
训练集中有问题企业有:110个
以20%划分的数据集,那有问题的企业应该有个4,5百家吧,差不多应该对。
使用pandas读取文件
选取目标值与特征值(企业id,买入卖出的数量。Label为有问题企业代码)
缺失值处理
数据集划分
字典特征抽取
决策树预估器
模型评估
结果:
训练集中有问题企业有:110个
以20%划分的数据集,那有问题的企业应该有个4,5百家吧,差不多应该对。