05 2022 档案

摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第七章:Pandas数据合并与对比 7.1 数据追加 7.2 数据连接 7.3 数据合并 7.4 按元素合并 7.5 数据对比 🚗博客: Pandas:数据合并与对比 2、《Python机器学习基础教程》第五章:模型评估与改进 阅读全文
posted @ 2022-05-28 21:27 朝南烟 阅读(43) 评论(0) 推荐(0) 编辑
摘要:1、数据追加df.append() df.append(self, other, ignore_index=False, verify_integrity=False, sort=False) 其中: other 是它要追加的其他 DataFrame 或者类似序列内容 ignore_index 如果 阅读全文
posted @ 2022-05-28 21:16 朝南烟 阅读(662) 评论(0) 推荐(0) 编辑
摘要:1、多分类指标 前面已经深入讨论了二分类任务的评估,下面来看一下对多分类问题的评估指标。 多分类问题的所有指标基本上都来自二分类指标,但要对所有类别进行平均。 除了精度,常用的工具有混淆矩阵和分类报告 sklearn.metrics.confusion_metrix sklearn.metrics. 阅读全文
posted @ 2022-05-28 19:48 朝南烟 阅读(675) 评论(0) 推荐(0) 编辑
摘要:精度可以作为度量模型好坏的一个指标,它表示预测正确的样本数占所有样本数的比例。 但是在实践中,我们通常不仅对精确的预测感兴趣,还希望将这些预测结果用于更大的决策过程 1、 二分类指标 我们先看一下测量精度可能会怎么误导我们 1.1错误类型 ⭐精度并不能很好地度量预测性能,因为我们所犯得错误并不包括我 阅读全文
posted @ 2022-05-28 16:42 朝南烟 阅读(824) 评论(0) 推荐(0) 编辑
摘要:我们已经知道如何评估一个模型的泛化能力:交叉验证 接着学习如何通过调参来提升模型的泛化能力 ⭐网格搜索:尝试我们所关心的参数的所有可能组合 1、简单网格搜索 from sklearn.svm import SVC from sklearn.model_selection import train_t 阅读全文
posted @ 2022-05-26 22:45 朝南烟 阅读(257) 评论(0) 推荐(0) 编辑
摘要:⭐为什么要划分测试集与训练集? 用测试集度量模型对未见过数据的泛化性能 ⭐交叉验证 数据被多次划分,需要训练多个模型 最常用K折交叉验证 k是用户指定的数字,通常取0/5, 5折交叉验证:数据划分为5部分,每一部分叫做折。每一折依次轮流作为测试集,其余做训练集 mglearn.plots.plot_ 阅读全文
posted @ 2022-05-26 22:28 朝南烟 阅读(503) 评论(0) 推荐(1) 编辑
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第六章:Pandas分组聚合 6.4 聚合统计 6.5 数据分箱 6.6 分组可视化 🚗博客: pandas:聚合统计、数据分箱、分组可视化 2、《Python机器学习基础教程》第四章 自动化特征选择 单变量统计 基于模型的特征 阅读全文
posted @ 2022-05-21 21:06 朝南烟 阅读(42) 评论(0) 推荐(0) 编辑
摘要:任务: 要求预测给定日期和时间,预测会有多少人在Andreas的家门口组一辆自行车。 1、先看一下数据集数据集 自行车数据集给出了2015年8月每天的自行车租赁的数目,每隔3小时统计一次 from sklearn.model_selection import train_test_split fro 阅读全文
posted @ 2022-05-21 20:45 朝南烟 阅读(72) 评论(0) 推荐(0) 编辑
摘要:⭐在添加新特征或处理一般的的高维数据集,最好将特征的数量减少到只包含最有用的那些特征,并删除其余特征 然而,如何判断每个特征的作用呢? 三种基本的策略: 1、单变量统计 2、基于模型的选择 3、迭代选择 这些都是监督方法,需要划分测试集和训练集,并旨在训练集上拟合特征选择 1、单变量统计 ⭐我们计算 阅读全文
posted @ 2022-05-21 17:53 朝南烟 阅读(174) 评论(0) 推荐(0) 编辑
摘要:1、聚合统计 1.1描述统计 #df.describe(),对数据的总体特征进行描述 df.groupby('team').describe() df.groupby('team').describe().T #列数太多,进行转置 1.2统计函数 #对分组对象直接使用统计函数,分组内数据进行计算,返 阅读全文
posted @ 2022-05-21 17:45 朝南烟 阅读(1732) 评论(0) 推荐(0) 编辑
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第六章:Pandas分组聚合 6.1概述 6.2分组 6.3分组对象的操作 🚗我的博客链接: Pandas 分组聚合 :分组、分组对象操作 2、《Python机器学习基础教程》第四章p161-p180 分类变量 🚗我的博客链接 阅读全文
posted @ 2022-05-14 19:52 朝南烟 阅读(46) 评论(0) 推荐(0) 编辑
摘要:1、概述 1.1 group语法 df.groupby(self, by=None, axis=0, level=None, as_index: bool=True, sort: bool=True, group_keys: bool=True, squeeze: bool=False, obser 阅读全文
posted @ 2022-05-14 19:42 朝南烟 阅读(563) 评论(0) 推荐(0) 编辑
摘要:特征和目标之间存在非线性关系,建模变得很困难 ⭐log和exp函数可以帮助调节数据的相对比例,改进线性模型或者神经网络的学习效果 ⭐大部分模型在每个特征遵循高斯分布时表现很好 ⭐在处理整数计数数据时,这种log,exp变换非常有用 1、模拟一些数据 模拟钟形分布的数据 from sklearn.li 阅读全文
posted @ 2022-05-13 13:32 朝南烟 阅读(185) 评论(0) 推荐(0) 编辑
摘要:⭐想要丰富特征表示,可以通过添加原始数据的交互特征和多项式特征,尤其是对于线性模型而言。 如果想向分箱数据(4.2的内容)上的线性模型添加斜率:1、加入原始特征(图中的X轴),2、添加交互特征或乘积特征 1、加入原始特征 # 向分箱数据中加入原始特征 X,y = mglearn.datasets.m 阅读全文
posted @ 2022-05-13 11:28 朝南烟 阅读(282) 评论(0) 推荐(0) 编辑
摘要:1、线性模型与决策树在wave数据集上的表现 ⭐数据表示的最佳方法不仅取决于数据的语义,还取决于所使用的模型种类。 线性模型与基于树的模型(决策树、梯度提升树、随机森林)很常用的模型,但他们在处理不同特征表示时具有非常不同的性质。 ⭐下面是线性回归和决策树在make_wave数据集中的对比 impo 阅读全文
posted @ 2022-05-13 11:00 朝南烟 阅读(273) 评论(0) 推荐(0) 编辑
摘要:💚特征工程:对于某个特定的应用,如何找到最佳的数据表示 用正确的方式表示数据,对监督模型性能的影响比所选择的精确参数还要大~ 💚分类特征(离散特征):数据输入不以连续的方式变化,不同的分类之间也没有顺序,不可以比较和四则运算 💚连续特征:输入是连续的 1、关于要用到的adult数据集 data 阅读全文
posted @ 2022-05-12 23:01 朝南烟 阅读(394) 评论(0) 推荐(0) 编辑
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第五章:Pandas高级操作的两个内容 数据迭代 函数应用 🚗我的博客链接: pandas:数据迭代、函数应用 2、《Python机器学习基础教程》第三章p130-p159 K-means 🚗我的博客链接:聚类--KMeans 阅读全文
posted @ 2022-05-07 13:48 朝南烟 阅读(40) 评论(0) 推荐(0) 编辑
摘要:1、用真实值评估聚类(ARI) 1.1 ARI(调整rand指数) 🌺有一些指标可用于评估聚类算法相对于真实聚类的结果,其中最重要的是调整rand指数和归一化互信息。 二者都给出了定量的度量,其最佳值为1,0表示不相关的聚类(虽然ARI可以取负值)。 📐下面我们使用ARI来比较k均值,凝聚聚类和 阅读全文
posted @ 2022-05-07 12:25 朝南烟 阅读(787) 评论(0) 推荐(0) 编辑
摘要:1、数据迭代 1.1 迭代行 (1)df.iterrows() for index, row in df[0:5].iterrows(): #需要两个变量承接数据 print(row) print("\n") for index, row in df[0:5].iterrows(): print(r 阅读全文
posted @ 2022-05-06 19:02 朝南烟 阅读(220) 评论(0) 推荐(0) 编辑
摘要:1、什么是DBSCN DBSCAN也是一个非常有用的聚类算法。 它的主要优点:它不需要用户先验地设置簇的个数,可以划分具有复杂形状的簇,还可以找出不属于任何簇的点。 DBSCAN比凝聚聚类和k均值稍慢,但仍可以扩展到相对较大的数据集。 1.1算法原理 DBSCAN的原理是识别特征空间的“拥挤”区域中 阅读全文
posted @ 2022-05-05 16:39 朝南烟 阅读(342) 评论(0) 推荐(0) 编辑
摘要:1、什么是凝聚聚类 凝聚聚类(agglomerative clustering)指的是许多基于相同原则构建的聚类算法, 这一原则是: 算法首先声明每个点是自己的簇,然后合并两个最相似的簇,直到满足某种停止准则为止。 scikit-learn 中实现的停止准则是簇的个数,因此相似的簇被合并,直到仅剩下 阅读全文
posted @ 2022-05-05 16:15 朝南烟 阅读(242) 评论(0) 推荐(0) 编辑
摘要:1、什么是K均值聚类 k均值聚类是最简单也是最常用的聚类算法之一。它试图找到代表数据特定区域的簇中心(Cluster Center) K-means算法过程 1.随机布置K个特征空间内的点作为初始的聚类中心 2.对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个,并且把该数据标记为从属这 阅读全文
posted @ 2022-05-05 15:53 朝南烟 阅读(238) 评论(0) 推荐(0) 编辑
摘要:本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第五章:Pandas高级操作的两个内容 添加修改数据 高级过滤 🚗我的博客链接: Pandas:添加修改、高级过滤 2、《Python机器学习基础教程》第三章p100-p130 预处理与缩放 🚗我的博客链接:预处理与缩放 主成 阅读全文
posted @ 2022-05-01 10:25 朝南烟 阅读(38) 评论(0) 推荐(0) 编辑

body { color: #000; background-color: #e6e6e6; font-family: "Helvetica Neue",Helvetica,Verdana,Arial,sans-serif; font-size: 12px; min-height: 101%; background: url(https://images.cnblogs.com/cnblogs_com/caolanying/1841633/o_2009041…ly1geq8oc9owbj21hc0u0th5.jpg) fixed; } #home { margin: 0 auto; opacity: 0.8; width: 65%; min-width: 1080px; background-color: #fff; padding: 30px; margin-top: 50px; margin-bottom: 50px; box-shadow: 0 2px 6px rgba(100, 100, 100, 0.3); }
点击右上角即可分享
微信分享提示