摘要: 学习:通过接收到的数据,归纳提取相同与不同 机器学习:让计算机以数据为基础,进行归纳与总结 模型:数据解释现象的系统。 6:2:2 · 训练集:用来训练与拟合模型 · 测试集:模型泛化能力的考量。(泛化:对数据的预测能力) · 验证集:当通过训练集训练出多个模型后,使用验证集数据纠偏或比较预测 当数 阅读全文
posted @ 2019-08-28 14:54 大脸猫12581 阅读(960) 评论(0) 推荐(0) 编辑
摘要: 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 5.1、数据清洗 5.1.1 数据样本抽样 · 样本要具有代表性 · 样本比例要平衡以及样本不均衡时如何处理 · 考虑全量数据 5.1.2异常值(空值)处理 · 识别异常值和重复值 Pandas:isnull()/duplicate 阅读全文
posted @ 2019-08-28 13:41 大脸猫12581 阅读(795) 评论(0) 推荐(0) 编辑