上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 29 下一页
摘要: ⭐为什么要划分测试集与训练集? 用测试集度量模型对未见过数据的泛化性能 ⭐交叉验证 数据被多次划分,需要训练多个模型 最常用K折交叉验证 k是用户指定的数字,通常取0/5, 5折交叉验证:数据划分为5部分,每一部分叫做折。每一折依次轮流作为测试集,其余做训练集 mglearn.plots.plot_ 阅读全文
posted @ 2022-05-26 22:28 朝南烟 阅读(406) 评论(0) 推荐(1) 编辑
摘要: 本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第六章:Pandas分组聚合 6.4 聚合统计 6.5 数据分箱 6.6 分组可视化 🚗博客: pandas:聚合统计、数据分箱、分组可视化 2、《Python机器学习基础教程》第四章 自动化特征选择 单变量统计 基于模型的特征 阅读全文
posted @ 2022-05-21 21:06 朝南烟 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 任务: 要求预测给定日期和时间,预测会有多少人在Andreas的家门口组一辆自行车。 1、先看一下数据集数据集 自行车数据集给出了2015年8月每天的自行车租赁的数目,每隔3小时统计一次 from sklearn.model_selection import train_test_split fro 阅读全文
posted @ 2022-05-21 20:45 朝南烟 阅读(62) 评论(0) 推荐(0) 编辑
摘要: ⭐在添加新特征或处理一般的的高维数据集,最好将特征的数量减少到只包含最有用的那些特征,并删除其余特征 然而,如何判断每个特征的作用呢? 三种基本的策略: 1、单变量统计 2、基于模型的选择 3、迭代选择 这些都是监督方法,需要划分测试集和训练集,并旨在训练集上拟合特征选择 1、单变量统计 ⭐我们计算 阅读全文
posted @ 2022-05-21 17:53 朝南烟 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 1、聚合统计 1.1描述统计 #df.describe(),对数据的总体特征进行描述 df.groupby('team').describe() df.groupby('team').describe().T #列数太多,进行转置 1.2统计函数 #对分组对象直接使用统计函数,分组内数据进行计算,返 阅读全文
posted @ 2022-05-21 17:45 朝南烟 阅读(1330) 评论(0) 推荐(0) 编辑
上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 29 下一页
body { color: #000; background-color: #e6e6e6; font-family: "Helvetica Neue",Helvetica,Verdana,Arial,sans-serif; font-size: 12px; min-height: 101%; background: url(https://images.cnblogs.com/cnblogs_com/caolanying/1841633/o_2009041…ly1geq8oc9owbj21hc0u0th5.jpg) fixed; } #home { margin: 0 auto; opacity: 0.8; width: 65%; min-width: 1080px; background-color: #fff; padding: 30px; margin-top: 50px; margin-bottom: 50px; box-shadow: 0 2px 6px rgba(100, 100, 100, 0.3); }