朝南烟 - 博客园

2022年5月26日

摘要： ⭐为什么要划分测试集与训练集？用测试集度量模型对未见过数据的泛化性能 ⭐交叉验证数据被多次划分，需要训练多个模型最常用K折交叉验证 k是用户指定的数字，通常取0/5， 5折交叉验证：数据划分为5部分，每一部分叫做折。每一折依次轮流作为测试集，其余做训练集 mglearn.plots.plot_ 阅读全文

posted @ 2022-05-26 22:28 朝南烟阅读(467) 评论(0) 推荐(1) 编辑

2022年5月21日

ML第7周学习小结

摘要：本周收获总结一下本周学习内容： 1、学习了《深入浅出Pandas》的第六章：Pandas分组聚合 6.4 聚合统计 6.5 数据分箱 6.6 分组可视化 🚗博客： pandas：聚合统计、数据分箱、分组可视化 2、《Python机器学习基础教程》第四章自动化特征选择单变量统计基于模型的特征阅读全文

posted @ 2022-05-21 21:06 朝南烟阅读(41) 评论(0) 推荐(0) 编辑

专家知识

摘要：任务：要求预测给定日期和时间，预测会有多少人在Andreas的家门口组一辆自行车。 1、先看一下数据集数据集自行车数据集给出了2015年8月每天的自行车租赁的数目，每隔3小时统计一次 from sklearn.model_selection import train_test_split fro 阅读全文

posted @ 2022-05-21 20:45 朝南烟阅读(70) 评论(0) 推荐(0) 编辑

自动化特征选择

摘要： ⭐在添加新特征或处理一般的的高维数据集，最好将特征的数量减少到只包含最有用的那些特征，并删除其余特征然而，如何判断每个特征的作用呢？三种基本的策略： 1、单变量统计 2、基于模型的选择 3、迭代选择这些都是监督方法，需要划分测试集和训练集，并旨在训练集上拟合特征选择 1、单变量统计 ⭐我们计算阅读全文

posted @ 2022-05-21 17:53 朝南烟阅读(167) 评论(0) 推荐(0) 编辑

pandas：聚合统计、数据分箱、分组可视化

摘要： 1、聚合统计 1.1描述统计 #df.describe(),对数据的总体特征进行描述 df.groupby('team').describe() df.groupby('team').describe().T #列数太多，进行转置 1.2统计函数 #对分组对象直接使用统计函数，分组内数据进行计算，返阅读全文

posted @ 2022-05-21 17:45 朝南烟阅读(1620) 评论(0) 推荐(0) 编辑

cly的园子

公告