摘要:
"1. 数据不平衡的数据处理" "2. 数据不平衡的分类器评价指标" 1. 分类器评价指标 1.1 混淆矩阵 在数据不平衡的分类任务中,我们不在使用准确率当作模型性能度量的指标,而是使用 混淆矩阵、精准率、召回率、F1值当作模型的性能度量指标 。 TP(True Positive):真实是正例,预测 阅读全文
摘要:
"1. 数据不平衡的数据处理" "2. 数据不平衡的分类器评价指标" 1. 前言 什么是不平衡数据呢?顾名思义即我们的数据集样本类别比例不均衡。数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下 阅读全文
摘要:
1. 前言 模型的评估方法主要是针对有监督学习的。 2. 数据集划分方法 我们在拿到数据的时候,数据的表现形式会呈现多种多样性,我们首先需要做的是把数据格式化,把数据处理成计算机可以认识的结构。处理数据的过程叫做特征工程,特征工程是一个在机器学习的过程中,非常重要的一个过程,特征工程做的好坏,会直接 阅读全文
摘要:
1. 基本概念 偏差:偏差度量了学习算法的期望预测与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力 。 方差:方差度量了同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响 。 欠拟合:模型的经验误差大,模型太简单,在训练的过程中基本没学到有价值的内容,说明模型欠拟合。 阅读全文
摘要:
1. 机器学习的定义 [Mitchell, 1997]对机器学习给出了一个形式化的定义: 假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。 2. 机器学习的基本概念 1. 特征向量(feature vect 阅读全文