随笔分类 - 机器学习
摘要:一、归一化 对原始数据缩放到 0-1 之间,是线性变换。也叫最大最小标准化,离散标准化。 区间也可以设置为其他,一般为 0 - 1。 公式: min 为数据最小值,max 为数据最大值,x 为原始数据值,X 为归一化后的值。 特点 虽然归一化可以保留原始数据中存在的关系,但是计算用到的最大值与最小值
阅读全文
摘要:基础知识 1. 什么是数据科学?列出监督学习和非监督学习的区别。数据科学是各种工具、算法和机器学习方法的混合,其目标是从原始数据中发现隐藏的模式。这与统计学家多年来一直在做的事情相似但是有什么不同?下图解释了数据分析和数据科学的区别: 监督学习和无监督学习的区别如下:有监督学习:输入数据是有标记的,
阅读全文
摘要:总的来说,导致该问题出现的原因有以下几个 数据不平衡:如果训练数据中两个类别的样本数量不平衡,例如一个类别的样本数量比另一个类别少很多,那么模型可能会倾向于预测数量较多的类别。可以通过一些方法来解决数据不平衡问题,例如欠采样、过采样或者生成合成样本等方式。 特征选择:选择具有良好区分能力的特征对于提
阅读全文
摘要:在机器学习中经常会使用StandardScaler进行数据归一化,注意一旦调整好StandardScaler以后就保存下来,后面如果进行测试单个时,可以进行加载并对其进行标准化 StandardScaler 是一种常用的数据标准化方法,用于将数据转换为均值为 0,标准差为 1 的标准正态分布。 标准
阅读全文
摘要:我有一批数据,假设是100个文件的存储大小,比如1k,2k,3k......100k,在没有降维之前,数据维度是100维,比如1k的的量化就是1,0,0,0,......(即在0的位置取1,如果是2k则在1的位置取1),那么现在这个维度太大了,需要对其进行降维,假设我们想降到50维,即取值1k和2k
阅读全文
摘要:简介 说来惭愧,好久不写博客,让我动笔的竟然是sklearn一个小小的api功能,以前评价模型用的都是总体的准确率,第一次用sklearn提供的分类报告功能竟然搞不懂是怎么计算的,怎么还分类别。就像下面这样: 计算 首先y_true是真实结果,y_pred是预测出的标签,它们分别如下: y_true
阅读全文
摘要:sklearn(全称scikit-learn)是一个用于机器学习的Python库,它提供了包括分类、回归、聚类和降维等常用的机器学习算法,同时也提供了一些数据预处理、模型评估和模型选择等功能。sklearn是Python中最受欢迎的机器学习库之一,它非常易于使用,具有广泛的用户群体和完整的文档。 使
阅读全文
摘要:首先我们一定要区分准确率-accuracy和精准率-precision的区别: 准确率是表示一个模型的指标,而精准率是表示一个类别的指标 在计算上,准确率:全部检出的正确数/检出总数 精准率:检出的这个类别中正确数/检出的这个类别数量(包括错误和正确) 而召回也是衡量一个类别的指标 f1-score
阅读全文
摘要:逻辑回归和线性回归虽然名字很相似,但是它们是两个不同的模型,适用于不同的任务。主要区别在于以下几个方面: 目标变量类型不同:逻辑回归的目标变量是二元分类变量,即只有两个取值;而线性回归的目标变量是连续的数值型变量。 模型输出不同:逻辑回归的输出是概率值,其取值范围在 0 和 1 之间;而线性回归的输
阅读全文
摘要:本博文为学习笔记,博文的内容来自网上各种资料,在文末给出引用,本博文不作任何商业用途,仅供本人学习记录 细粒度图像分类旨在同一大类图像的确切子类。由于不同子类之间的视觉差异很小,而且容易受姿势、视角、图像中目标位置等影响,这是一个很有挑战性的任务。因此,类间差异通常比类内差异更小。双线性汇合(bil
阅读全文