摘要:
前言 了解过EM算法的同学可能知道,EM算法是数据挖掘十大算法,可谓搞机器学习或数据挖掘的基本绕不开,但EM算法又像数据结构里的KMP算法,看似简单但又貌似不是一看就懂,想绕开却绕不开的又爱又恨,可能正在阅读此文的你感同身受。 一直以来,我都坚持一个观点:当你学习某个知识点感觉学不懂时,十有八九不是 阅读全文
摘要:
准确率高达 96.2% 的模型跑在真实数据上却可能完全无法使用。一个可能的原因是:你所使用的训练数据是不平衡数据集。本文介绍了解决不平衡类分类问题的多种方法。选自TowardsDataScience,作者:Baptiste Rocca,参与:贾伟、路。 假设老板让你创建一个模型——基于可用的各种测量 阅读全文
摘要:
通常情况下,在不均衡学习应用中使用抽样方法的目的就是为了通过一些机制改善不均衡数据集,以期获得一个均衡的数据分布。 研究表明,对于一些基分类器来说,与不均衡的数据集相比一个均衡的数据集可以提高全局的分类性能。数据层面的处理方法是处理不均衡数据分类问题的重要途径之一,它的实现方法主要分为对多数类样本的 阅读全文
摘要:
摘要这一篇介绍一下关于样本不平衡的处理的方式,主要介绍两种采样方式,分别是上采样和下采样。这里主要介绍最简单的上采样和下采样,更多的内容见文章中的链接。 文章目录(Table of Contents) 简介 为什么要做样本平衡 解决办法 Under-sampling Over-sampling 简单 阅读全文
摘要:
分类模型性能评估指标混淆矩阵混淆矩阵就是把模型对样本的预测结果统计成如下表格的形式 混淆矩阵一般都是针对二分类问题,如果是多分类问题,则可以把需要关注的那个类别作为正类,其他类别作为负类,就可转化为二分类问题 混淆矩阵中的四个值: True Positive(TP):被模型预测为正的正样本数;Fal 阅读全文
摘要:
二分类使用Accuracy和F1-score,多分类使用Accuracy和宏F1。 最近在使用sklearn做分类时候,用到metrics中的评价函数,其中有一个非常重要的评价函数是F1值, 在sklearn中的计算F1的函数为 f1_score ,其中有一个参数average用来控制F1的计算方式 阅读全文
摘要:
作者丨琥珀里有波罗的海 来源丨机器学习算法与Python实战 前言 数据不平衡问题在机器学习分类问题中很常见,尤其是涉及到“异常检测"类型的分类。因为异常一般指的相对不常见的现象,因此发生的机率必然要小很多。因此正常类的样本量会远远高于异常类的样本量,一般高达几个数量级。比如:疾病相关的样本,正常的 阅读全文
摘要:
参考文献:https://www.zhihu.com/question/30094611 作者:史博链接:https://www.zhihu.com/question/30094611/answer/275172932来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 千 阅读全文
摘要:
文章目录降维算法 PCA一、数据维度概念二、skLearn中的降维算法三、PCA与SVD① 降维的实现步骤解析② 重要参数n_components• 累积可解释方差贡献率曲线• 最大似然估计自选超参数• 按信息量占比选超参数③ 重要参数 svd_solver④ 重要属性 components_• 迷 阅读全文
摘要:
认识高斯朴素贝叶斯class sklearn.naive_bayes.GaussianNB (priors=None, var_smoothing=1e-09)如果Xi是连续值,通常Xi的先验概率为高斯分布(也就是正态分布),即在样本类别Ck中,Xi的值符合正态分布。以此来估计每个特征下每个类别上的 阅读全文