随笔分类 -  机器学习

摘要:CleanVision是一个开源的Python库,旨在帮助用户自动检测图像数据集中可能影响机器学习项目的常见问题。该库被设计为计算机视觉项目的初步工具,以便在应用机器学习之前发现并解决数据集中的问题。CleanVision的核心功能包括检测完全重复、近似重复、模糊、低信息量、过暗、过亮、灰度、不规则 阅读全文
posted @ 2024-10-24 10:33 落痕的寒假 阅读(317) 评论(0) 推荐(2) 编辑
摘要:PyOD是一个全面且易于使用的Python库,专门用于检测多变量数据中的异常点或离群点。异常点是指那些与大多数数据点显著不同的数据,它们可能表示错误、噪声或潜在的有趣现象。无论是处理小规模项目还是大型数据集,PyOD提供了50多种算法以满足用户的需求。PyOD的特点包括: 统一且用户友好的接口,适用 阅读全文
posted @ 2024-10-01 10:48 落痕的寒假 阅读(347) 评论(0) 推荐(0) 编辑
摘要:PyCaret是一个开源、低代码Python机器学习库,能够自动化机器学习工作流程。它是一个端到端的机器学习和模型管理工具,极大地加快了实验周期,提高了工作效率。PyCaret本质上是围绕几个机器学习库和框架(如scikit-learn、XGBoost、LightGBM、CatBoost、spaCy 阅读全文
posted @ 2024-06-01 09:25 落痕的寒假 阅读(924) 评论(0) 推荐(0) 编辑
摘要:​ 转载于比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南-阿里云开发者社区 作者介绍:Saurabh.jaju2 Saurabh是一名数据科学家和软件工程师,熟练分析各种数据集和开发智能应用程序。他目前正在加州大学伯克利分校攻读信息和数据科学硕士学位,热衷于开发基于数据科学的智 阅读全文
posted @ 2022-12-21 20:16 落痕的寒假 阅读(534) 评论(0) 推荐(0) 编辑
摘要:特征分析可视化工具设计用于在数据空间中可视化实例,以便检测可能影响下游拟合的特征或目标。因为ML操作高维数据集(通常至少35个),可视化工具将重点放在聚合、优化和其他技术上,以提供对数据的概述。这是Yellowbrick的意图,指导过程将允许数据科学家缩放和过滤,并探索他们的实例和维度之间的关系。 阅读全文
posted @ 2022-12-19 22:51 落痕的寒假 阅读(302) 评论(0) 推荐(0) 编辑
摘要:分类模型试图在一个离散的空间中预测一个目标,即为一个因变量实例分配一个或多个类别。 代码下载 分类分数可视化工具显示类之间的差异以及一些特定于分类器的可视化评估。我们目前已经实施了以下分类器评估: 分类报告Classification Report:视觉分类报告,将每个类别的精度,召回率和F1显示为 阅读全文
posted @ 2022-12-19 22:49 落痕的寒假 阅读(178) 评论(0) 推荐(0) 编辑
摘要:特征选择 代码下载 本文主要介绍sklearn中进行特征选择的方法。 sklearn.feature_selection模块中的类可用于样本集的特征选择/降维,以提高估计量的准确性得分或提高其在超高维数据集上的性能。 递归式特征消除Recursive feature elimination(RFE) 阅读全文
posted @ 2022-12-19 22:44 落痕的寒假 阅读(844) 评论(0) 推荐(0) 编辑
摘要:支持向量机SVM(Support Vector Machine)是一种用来进行模式识别、分类、回归的机器学习模型。 SVM原理描述 模型表示 以一个客户好坏分类为案例,客户信息如下所示: 客户信息数轴表示如下所示: 以数学表达式对上述信息进行描述,可以用下式进行表示: 然而该方法对于大型数据集容易发 阅读全文
posted @ 2022-12-19 22:44 落痕的寒假 阅读(82) 评论(0) 推荐(0) 编辑
摘要:CCPD是一个大型的、多样化的、经过仔细标注的中国城市车牌开源数据集。CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集。CCPD2019数据集车牌类型仅有普通车牌(蓝色车牌),CCPD2020数据集车牌类型仅有新能源车牌(绿色车牌)。 在CCPD数据集中, 阅读全文
posted @ 2022-12-19 22:33 落痕的寒假 阅读(960) 评论(0) 推荐(0) 编辑
摘要:聚类(Clustering)简单来说就是一种分组方法,将一类事物中具有相似性的个体分为一类,将另一部分比较相近的个体分为另一类。例如人和猿都是灵长目动物,但是根据染色体数目不同可以将人和猿分类不同的两类。虽然人根据肤色又可以分为黄种人,白种人,有色种人,但是根据行为举止和形态,往往把黄种人,白种人等 阅读全文
posted @ 2022-12-18 23:24 落痕的寒假 阅读(573) 评论(0) 推荐(0) 编辑
摘要:Faiss是一个由facebook开发以用于高效相似性搜索和密集向量聚类的库。它能够在任意大小的向量集中进行搜索。它还包含用于评估和参数调整的支持代码。Faiss是用C++编写的,带有Python的完整接口。一些最有用的算法是在GPU上实现的。Faiss官方仓库为:faiss。 所谓相似性搜索是指通 阅读全文
posted @ 2022-07-21 11:42 落痕的寒假 阅读(3076) 评论(0) 推荐(1) 编辑
摘要:dlib是一个C++工具包(dLIB中也有Python接口,但是主要编程语言为C++),包含绝大多数常用的机器学习算法,许多图像处理算法和深度学习算法,被工业界和学术界广泛应用于机器人、嵌入式设备、移动电话和大型高性能计算环境等领域。dlib的开源许可允许您在任何应用程序中免费使用它。在工程实践中, 阅读全文
posted @ 2021-04-23 20:07 落痕的寒假 阅读(312) 评论(0) 推荐(0) 编辑
摘要:Yellowbrick可视化工具旨在指导模型选择过程。一般来说,模型选择是一个搜索问题,定义如下:给定N个由数值属性描述的实例和(可选)一个估计目标,找到一个由特征、算法和最适合数据的超参数组成的三元组描述的模型。在大多数情况下,“最佳”三元组是指收到模型类型的最佳交叉验证分数的三元组。 代码下载 阅读全文
posted @ 2020-07-25 11:36 落痕的寒假 阅读(100) 评论(0) 推荐(0) 编辑
摘要:聚类模型是试图检测未标记数据中模式的无监督方法。聚类算法主要有两类:聚集聚类将相似的数据点连接在一起,而质心聚类则试图在数据中找到中心或分区。Yellowbrick提供yellowbrick.cluster用于可视化和评估群集行为的模块。目前,我们提供了几种可视化工具来评估质心机制,特别是K均值聚类 阅读全文
posted @ 2020-07-25 11:16 落痕的寒假 阅读(128) 评论(0) 推荐(0) 编辑
摘要:回归模型试图预测连续空间中的目标。回归计分可视化工具显示模型空间中的实例,以便更好地理解模型是如何进行预测的。代码下载 Yellowbrick已经实施了三种回归评估: 残差图Residuals Plot:绘制期望值与实际值之间的差预测误差图Prediction Error Plot:在模型空间中绘制 阅读全文
posted @ 2020-07-25 10:49 落痕的寒假 阅读(72) 评论(0) 推荐(0) 编辑
摘要:目标可视化工具专门用于直观地描述用于监督建模的因变量,通常称为y目标。 代码下载 当前实现了以下可视化: 平衡箱可视化Balanced Binning:生成带有垂直线的直方图,垂直线显示推荐值点,以将数据装箱到均匀分布的箱中。类平衡Class Balance:可视化来检查目标,以显示每个类对最终估计 阅读全文
posted @ 2020-07-25 10:31 落痕的寒假 阅读(60) 评论(0) 推荐(0) 编辑
摘要:在本教程中,我们将查看各种Scikit Learn模型的分数,并使用Yellowbrick的可视化诊断工具对它们进行比较,以便为我们的数据选择最佳的模型。 代码下载 文章目录 1 使用说明1.1 模型选择三原则1.2 关于数据1.3 特征提取1.4 建模与评估1.4.1 评估分类器的通用指标1.4. 阅读全文
posted @ 2020-07-25 09:41 落痕的寒假 阅读(56) 评论(0) 推荐(0) 编辑
摘要:Yellowbrick是一个机器学习可视化库,主要依赖于sklearn机器学习库,能够提供多种机器学习算法的可视化,主要包括特征可视化,分类可视化,回归可视化,回归可视化,聚类可视化,模型选择可视化,目标可视化,文字可视化。本节主要介绍Yellowbrick如何快速使用。 代码下载 文章目录 1 使 阅读全文
posted @ 2020-07-25 09:06 落痕的寒假 阅读(89) 评论(0) 推荐(0) 编辑
摘要:特征选择 代码下载 本文主要介绍sklearn中进行特征选择的方法。 sklearn.feature_selection模块中的类可用于样本集的特征选择/降维,以提高估计量的准确性得分或提高其在超高维数据集上的性能。 文章目录 1 SelectFromModel基础使用2 SelectFromMod 阅读全文
posted @ 2020-07-09 22:17 落痕的寒假 阅读(259) 评论(0) 推荐(0) 编辑
摘要:特征选择 代码下载 本文主要介绍sklearn中进行特征选择的方法。 sklearn.feature_selection模块中的类可用于样本集的特征选择/降维,以提高估计量的准确性得分或提高其在超高维数据集上的性能。 文章目录 1 基本方法1.1 SelectKBest1.2 SelectPerce 阅读全文
posted @ 2020-07-09 22:07 落痕的寒假 阅读(125) 评论(0) 推荐(0) 编辑