随笔档案「2022年5月」 - 朝南烟

ML第8周学习小结

摘要：本周收获总结一下本周学习内容： 1、学习了《深入浅出Pandas》的第七章：Pandas数据合并与对比 7.1 数据追加 7.2 数据连接 7.3 数据合并 7.4 按元素合并 7.5 数据对比 🚗博客： Pandas:数据合并与对比 2、《Python机器学习基础教程》第五章：模型评估与改进阅读全文

posted @ 2022-05-28 21:27 朝南烟阅读(56) 评论(0) 推荐(0)

Pandas:数据合并与对比

摘要：1、数据追加df.append（） df.append(self, other, ignore_index=False, verify_integrity=False, sort=False) 其中： other 是它要追加的其他 DataFrame 或者类似序列内容 ignore_index 如果阅读全文

posted @ 2022-05-28 21:16 朝南烟阅读(720) 评论(0) 推荐(0)

评估指标与评分（下）：多分类指标及其他

摘要：1、多分类指标前面已经深入讨论了二分类任务的评估，下面来看一下对多分类问题的评估指标。多分类问题的所有指标基本上都来自二分类指标，但要对所有类别进行平均。除了精度，常用的工具有混淆矩阵和分类报告 sklearn.metrics.confusion_metrix sklearn.metrics. 阅读全文

posted @ 2022-05-28 19:48 朝南烟阅读(812) 评论(0) 推荐(0)

评估指标与评分（上）：二分类指标

摘要：精度可以作为度量模型好坏的一个指标，它表示预测正确的样本数占所有样本数的比例。但是在实践中，我们通常不仅对精确的预测感兴趣，还希望将这些预测结果用于更大的决策过程 1、二分类指标我们先看一下测量精度可能会怎么误导我们 1.1错误类型 ⭐精度并不能很好地度量预测性能，因为我们所犯得错误并不包括我阅读全文

posted @ 2022-05-28 16:42 朝南烟阅读(992) 评论(0) 推荐(0)

模型评估与改进：网格搜索

摘要：我们已经知道如何评估一个模型的泛化能力：交叉验证接着学习如何通过调参来提升模型的泛化能力 ⭐网格搜索：尝试我们所关心的参数的所有可能组合 1、简单网格搜索 from sklearn.svm import SVC from sklearn.model_selection import train_t 阅读全文

posted @ 2022-05-26 22:45 朝南烟阅读(384) 评论(0) 推荐(0)

模型评估与改进：交叉验证

摘要：⭐为什么要划分测试集与训练集？用测试集度量模型对未见过数据的泛化性能 ⭐交叉验证数据被多次划分，需要训练多个模型最常用K折交叉验证 k是用户指定的数字，通常取0/5， 5折交叉验证：数据划分为5部分，每一部分叫做折。每一折依次轮流作为测试集，其余做训练集 mglearn.plots.plot_ 阅读全文

posted @ 2022-05-26 22:28 朝南烟阅读(572) 评论(0) 推荐(1)

ML第7周学习小结

摘要：本周收获总结一下本周学习内容： 1、学习了《深入浅出Pandas》的第六章：Pandas分组聚合 6.4 聚合统计 6.5 数据分箱 6.6 分组可视化 🚗博客： pandas：聚合统计、数据分箱、分组可视化 2、《Python机器学习基础教程》第四章自动化特征选择单变量统计基于模型的特征阅读全文

posted @ 2022-05-21 21:06 朝南烟阅读(50) 评论(0) 推荐(0)

专家知识

摘要：任务：要求预测给定日期和时间，预测会有多少人在Andreas的家门口组一辆自行车。 1、先看一下数据集数据集自行车数据集给出了2015年8月每天的自行车租赁的数目，每隔3小时统计一次 from sklearn.model_selection import train_test_split fro 阅读全文

posted @ 2022-05-21 20:45 朝南烟阅读(89) 评论(0) 推荐(0)

自动化特征选择

摘要：⭐在添加新特征或处理一般的的高维数据集，最好将特征的数量减少到只包含最有用的那些特征，并删除其余特征然而，如何判断每个特征的作用呢？三种基本的策略： 1、单变量统计 2、基于模型的选择 3、迭代选择这些都是监督方法，需要划分测试集和训练集，并旨在训练集上拟合特征选择 1、单变量统计 ⭐我们计算阅读全文

posted @ 2022-05-21 17:53 朝南烟阅读(229) 评论(0) 推荐(0)

pandas：聚合统计、数据分箱、分组可视化

摘要：1、聚合统计 1.1描述统计 #df.describe(),对数据的总体特征进行描述 df.groupby('team').describe() df.groupby('team').describe().T #列数太多，进行转置 1.2统计函数 #对分组对象直接使用统计函数，分组内数据进行计算，返阅读全文

posted @ 2022-05-21 17:45 朝南烟阅读(1998) 评论(0) 推荐(0)

ML第6周学习小结

摘要：本周收获总结一下本周学习内容： 1、学习了《深入浅出Pandas》的第六章：Pandas分组聚合 6.1概述 6.2分组 6.3分组对象的操作 🚗我的博客链接： Pandas 分组聚合：分组、分组对象操作 2、《Python机器学习基础教程》第四章p161-p180 分类变量 🚗我的博客链接阅读全文

posted @ 2022-05-14 19:52 朝南烟阅读(51) 评论(0) 推荐(0)

Pandas 分组聚合：分组、分组对象操作

摘要：1、概述 1.1 group语法 df.groupby(self, by=None, axis=0, level=None, as_index: bool=True, sort: bool=True, group_keys: bool=True, squeeze: bool=False, obser 阅读全文

posted @ 2022-05-14 19:42 朝南烟阅读(643) 评论(0) 推荐(0)

数据表示与特征工程--单变量非线性变换

摘要：特征和目标之间存在非线性关系，建模变得很困难 ⭐log和exp函数可以帮助调节数据的相对比例，改进线性模型或者神经网络的学习效果 ⭐大部分模型在每个特征遵循高斯分布时表现很好 ⭐在处理整数计数数据时，这种log，exp变换非常有用 1、模拟一些数据模拟钟形分布的数据 from sklearn.li 阅读全文

posted @ 2022-05-13 13:32 朝南烟阅读(216) 评论(0) 推荐(0)

数据表示与特征工程--交互特征与多项式特征

摘要：⭐想要丰富特征表示，可以通过添加原始数据的交互特征和多项式特征，尤其是对于线性模型而言。如果想向分箱数据（4.2的内容）上的线性模型添加斜率：1、加入原始特征（图中的X轴），2、添加交互特征或乘积特征 1、加入原始特征 # 向分箱数据中加入原始特征 X,y = mglearn.datasets.m 阅读全文

posted @ 2022-05-13 11:28 朝南烟阅读(366) 评论(0) 推荐(0)

数据表示与特征工程--分箱、离散化、线性模型与树

摘要：1、线性模型与决策树在wave数据集上的表现 ⭐数据表示的最佳方法不仅取决于数据的语义，还取决于所使用的模型种类。线性模型与基于树的模型（决策树、梯度提升树、随机森林）很常用的模型，但他们在处理不同特征表示时具有非常不同的性质。 ⭐下面是线性回归和决策树在make_wave数据集中的对比 impo 阅读全文

posted @ 2022-05-13 11:00 朝南烟阅读(314) 评论(0) 推荐(0)

数据表示与特征工程--分类变量

摘要：💚特征工程：对于某个特定的应用，如何找到最佳的数据表示用正确的方式表示数据，对监督模型性能的影响比所选择的精确参数还要大~ 💚分类特征（离散特征）：数据输入不以连续的方式变化，不同的分类之间也没有顺序，不可以比较和四则运算 💚连续特征：输入是连续的 1、关于要用到的adult数据集 data 阅读全文

posted @ 2022-05-12 23:01 朝南烟阅读(459) 评论(0) 推荐(0)

ML第5周学习小结

摘要：本周收获总结一下本周学习内容： 1、学习了《深入浅出Pandas》的第五章：Pandas高级操作的两个内容数据迭代函数应用 🚗我的博客链接： pandas:数据迭代、函数应用 2、《Python机器学习基础教程》第三章p130-p159 K-means 🚗我的博客链接：聚类--KMeans 阅读全文

posted @ 2022-05-07 13:48 朝南烟阅读(48) 评论(0) 推荐(0)

聚类算法的对比与评估

摘要：1、用真实值评估聚类（ARI） 1.1 ARI（调整rand指数） 🌺有一些指标可用于评估聚类算法相对于真实聚类的结果，其中最重要的是调整rand指数和归一化互信息。二者都给出了定量的度量，其最佳值为1，0表示不相关的聚类（虽然ARI可以取负值）。 📐下面我们使用ARI来比较k均值，凝聚聚类和阅读全文

posted @ 2022-05-07 12:25 朝南烟阅读(1053) 评论(0) 推荐(0)

pandas:数据迭代、函数应用

摘要：1、数据迭代 1.1 迭代行 (1)df.iterrows() for index, row in df[0:5].iterrows(): #需要两个变量承接数据 print(row) print("\n") for index, row in df[0:5].iterrows(): print(r 阅读全文

posted @ 2022-05-06 19:02 朝南烟阅读(259) 评论(0) 推荐(0)

聚类--DBSCN

摘要：1、什么是DBSCN DBSCAN也是一个非常有用的聚类算法。它的主要优点:它不需要用户先验地设置簇的个数，可以划分具有复杂形状的簇，还可以找出不属于任何簇的点。 DBSCAN比凝聚聚类和k均值稍慢，但仍可以扩展到相对较大的数据集。 1.1算法原理 DBSCAN的原理是识别特征空间的“拥挤”区域中阅读全文

posted @ 2022-05-05 16:39 朝南烟阅读(445) 评论(0) 推荐(0)

聚类--凝聚聚类

摘要：1、什么是凝聚聚类凝聚聚类（agglomerative clustering）指的是许多基于相同原则构建的聚类算法，这一原则是：算法首先声明每个点是自己的簇，然后合并两个最相似的簇，直到满足某种停止准则为止。 scikit-learn 中实现的停止准则是簇的个数，因此相似的簇被合并，直到仅剩下阅读全文

posted @ 2022-05-05 16:15 朝南烟阅读(341) 评论(0) 推荐(0)

聚类--KMeans

摘要：1、什么是K均值聚类 k均值聚类是最简单也是最常用的聚类算法之一。它试图找到代表数据特定区域的簇中心（Cluster Center） K-means算法过程 1.随机布置K个特征空间内的点作为初始的聚类中心 2.对于根据每个数据的特征向量，从K个聚类中心中寻找距离最近的一个，并且把该数据标记为从属这阅读全文

posted @ 2022-05-05 15:53 朝南烟阅读(382) 评论(0) 推荐(0)

ML第4周学习小结

摘要：本周收获总结一下本周学习内容： 1、学习了《深入浅出Pandas》的第五章：Pandas高级操作的两个内容添加修改数据高级过滤 🚗我的博客链接： Pandas：添加修改、高级过滤 2、《Python机器学习基础教程》第三章p100-p130 预处理与缩放 🚗我的博客链接：预处理与缩放主成阅读全文

posted @ 2022-05-01 10:25 朝南烟阅读(50) 评论(0) 推荐(0)

cly的园子

05 2022 档案

公告