05 2022 档案
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第七章:Pandas数据合并与对比 7.1 数据追加 7.2 数据连接 7.3 数据合并 7.4 按元素合并 7.5 数据对比 🚗博客: Pandas:数据合并与对比 2、《Python机器学习基础教程》第五章:模型评估与改进
阅读全文
摘要:1、数据追加df.append() df.append(self, other, ignore_index=False, verify_integrity=False, sort=False) 其中: other 是它要追加的其他 DataFrame 或者类似序列内容 ignore_index 如果
阅读全文
摘要:1、多分类指标 前面已经深入讨论了二分类任务的评估,下面来看一下对多分类问题的评估指标。 多分类问题的所有指标基本上都来自二分类指标,但要对所有类别进行平均。 除了精度,常用的工具有混淆矩阵和分类报告 sklearn.metrics.confusion_metrix sklearn.metrics.
阅读全文
摘要:精度可以作为度量模型好坏的一个指标,它表示预测正确的样本数占所有样本数的比例。 但是在实践中,我们通常不仅对精确的预测感兴趣,还希望将这些预测结果用于更大的决策过程 1、 二分类指标 我们先看一下测量精度可能会怎么误导我们 1.1错误类型 ⭐精度并不能很好地度量预测性能,因为我们所犯得错误并不包括我
阅读全文
摘要:我们已经知道如何评估一个模型的泛化能力:交叉验证 接着学习如何通过调参来提升模型的泛化能力 ⭐网格搜索:尝试我们所关心的参数的所有可能组合 1、简单网格搜索 from sklearn.svm import SVC from sklearn.model_selection import train_t
阅读全文
摘要:⭐为什么要划分测试集与训练集? 用测试集度量模型对未见过数据的泛化性能 ⭐交叉验证 数据被多次划分,需要训练多个模型 最常用K折交叉验证 k是用户指定的数字,通常取0/5, 5折交叉验证:数据划分为5部分,每一部分叫做折。每一折依次轮流作为测试集,其余做训练集 mglearn.plots.plot_
阅读全文
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第六章:Pandas分组聚合 6.4 聚合统计 6.5 数据分箱 6.6 分组可视化 🚗博客: pandas:聚合统计、数据分箱、分组可视化 2、《Python机器学习基础教程》第四章 自动化特征选择 单变量统计 基于模型的特征
阅读全文
摘要:任务: 要求预测给定日期和时间,预测会有多少人在Andreas的家门口组一辆自行车。 1、先看一下数据集数据集 自行车数据集给出了2015年8月每天的自行车租赁的数目,每隔3小时统计一次 from sklearn.model_selection import train_test_split fro
阅读全文
摘要:⭐在添加新特征或处理一般的的高维数据集,最好将特征的数量减少到只包含最有用的那些特征,并删除其余特征 然而,如何判断每个特征的作用呢? 三种基本的策略: 1、单变量统计 2、基于模型的选择 3、迭代选择 这些都是监督方法,需要划分测试集和训练集,并旨在训练集上拟合特征选择 1、单变量统计 ⭐我们计算
阅读全文
摘要:1、聚合统计 1.1描述统计 #df.describe(),对数据的总体特征进行描述 df.groupby('team').describe() df.groupby('team').describe().T #列数太多,进行转置 1.2统计函数 #对分组对象直接使用统计函数,分组内数据进行计算,返
阅读全文
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第六章:Pandas分组聚合 6.1概述 6.2分组 6.3分组对象的操作 🚗我的博客链接: Pandas 分组聚合 :分组、分组对象操作 2、《Python机器学习基础教程》第四章p161-p180 分类变量 🚗我的博客链接
阅读全文
摘要:1、概述 1.1 group语法 df.groupby(self, by=None, axis=0, level=None, as_index: bool=True, sort: bool=True, group_keys: bool=True, squeeze: bool=False, obser
阅读全文
摘要:特征和目标之间存在非线性关系,建模变得很困难 ⭐log和exp函数可以帮助调节数据的相对比例,改进线性模型或者神经网络的学习效果 ⭐大部分模型在每个特征遵循高斯分布时表现很好 ⭐在处理整数计数数据时,这种log,exp变换非常有用 1、模拟一些数据 模拟钟形分布的数据 from sklearn.li
阅读全文
摘要:⭐想要丰富特征表示,可以通过添加原始数据的交互特征和多项式特征,尤其是对于线性模型而言。 如果想向分箱数据(4.2的内容)上的线性模型添加斜率:1、加入原始特征(图中的X轴),2、添加交互特征或乘积特征 1、加入原始特征 # 向分箱数据中加入原始特征 X,y = mglearn.datasets.m
阅读全文
摘要:1、线性模型与决策树在wave数据集上的表现 ⭐数据表示的最佳方法不仅取决于数据的语义,还取决于所使用的模型种类。 线性模型与基于树的模型(决策树、梯度提升树、随机森林)很常用的模型,但他们在处理不同特征表示时具有非常不同的性质。 ⭐下面是线性回归和决策树在make_wave数据集中的对比 impo
阅读全文
摘要:💚特征工程:对于某个特定的应用,如何找到最佳的数据表示 用正确的方式表示数据,对监督模型性能的影响比所选择的精确参数还要大~ 💚分类特征(离散特征):数据输入不以连续的方式变化,不同的分类之间也没有顺序,不可以比较和四则运算 💚连续特征:输入是连续的 1、关于要用到的adult数据集 data
阅读全文
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第五章:Pandas高级操作的两个内容 数据迭代 函数应用 🚗我的博客链接: pandas:数据迭代、函数应用 2、《Python机器学习基础教程》第三章p130-p159 K-means 🚗我的博客链接:聚类--KMeans
阅读全文
摘要:1、用真实值评估聚类(ARI) 1.1 ARI(调整rand指数) 🌺有一些指标可用于评估聚类算法相对于真实聚类的结果,其中最重要的是调整rand指数和归一化互信息。 二者都给出了定量的度量,其最佳值为1,0表示不相关的聚类(虽然ARI可以取负值)。 📐下面我们使用ARI来比较k均值,凝聚聚类和
阅读全文
摘要:1、数据迭代 1.1 迭代行 (1)df.iterrows() for index, row in df[0:5].iterrows(): #需要两个变量承接数据 print(row) print("\n") for index, row in df[0:5].iterrows(): print(r
阅读全文
摘要:1、什么是DBSCN DBSCAN也是一个非常有用的聚类算法。 它的主要优点:它不需要用户先验地设置簇的个数,可以划分具有复杂形状的簇,还可以找出不属于任何簇的点。 DBSCAN比凝聚聚类和k均值稍慢,但仍可以扩展到相对较大的数据集。 1.1算法原理 DBSCAN的原理是识别特征空间的“拥挤”区域中
阅读全文
摘要:1、什么是凝聚聚类 凝聚聚类(agglomerative clustering)指的是许多基于相同原则构建的聚类算法, 这一原则是: 算法首先声明每个点是自己的簇,然后合并两个最相似的簇,直到满足某种停止准则为止。 scikit-learn 中实现的停止准则是簇的个数,因此相似的簇被合并,直到仅剩下
阅读全文
摘要:1、什么是K均值聚类 k均值聚类是最简单也是最常用的聚类算法之一。它试图找到代表数据特定区域的簇中心(Cluster Center) K-means算法过程 1.随机布置K个特征空间内的点作为初始的聚类中心 2.对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个,并且把该数据标记为从属这
阅读全文
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第五章:Pandas高级操作的两个内容 添加修改数据 高级过滤 🚗我的博客链接: Pandas:添加修改、高级过滤 2、《Python机器学习基础教程》第三章p100-p130 预处理与缩放 🚗我的博客链接:预处理与缩放 主成
阅读全文