摘要:
⭐为什么要划分测试集与训练集? 用测试集度量模型对未见过数据的泛化性能 ⭐交叉验证 数据被多次划分,需要训练多个模型 最常用K折交叉验证 k是用户指定的数字,通常取0/5, 5折交叉验证:数据划分为5部分,每一部分叫做折。每一折依次轮流作为测试集,其余做训练集 mglearn.plots.plot_ 阅读全文
摘要:
本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第六章:Pandas分组聚合 6.4 聚合统计 6.5 数据分箱 6.6 分组可视化 🚗博客: pandas:聚合统计、数据分箱、分组可视化 2、《Python机器学习基础教程》第四章 自动化特征选择 单变量统计 基于模型的特征 阅读全文
摘要:
任务: 要求预测给定日期和时间,预测会有多少人在Andreas的家门口组一辆自行车。 1、先看一下数据集数据集 自行车数据集给出了2015年8月每天的自行车租赁的数目,每隔3小时统计一次 from sklearn.model_selection import train_test_split fro 阅读全文
摘要:
⭐在添加新特征或处理一般的的高维数据集,最好将特征的数量减少到只包含最有用的那些特征,并删除其余特征 然而,如何判断每个特征的作用呢? 三种基本的策略: 1、单变量统计 2、基于模型的选择 3、迭代选择 这些都是监督方法,需要划分测试集和训练集,并旨在训练集上拟合特征选择 1、单变量统计 ⭐我们计算 阅读全文
摘要:
1、聚合统计 1.1描述统计 #df.describe(),对数据的总体特征进行描述 df.groupby('team').describe() df.groupby('team').describe().T #列数太多,进行转置 1.2统计函数 #对分组对象直接使用统计函数,分组内数据进行计算,返 阅读全文