07 2019 档案
摘要:性能度量是衡量模型泛化能力的评价标准,模型的好坏是相对的,模型的好坏不仅取决于算法和数据,还决定于任务的需求。 回归任务中常用的性能度量是:均方误差(越小越好),解释方差分(越接近1越好)。 分类任务中常用的性能度量: 1)错误率:分类错误的样本数占样本总数的比例。 2)精度:分类正确的样本数占样本
阅读全文
摘要:1.kmeans聚类算法 传统的kmeans思路分析: 根据经验确定应该把数据聚类的类的个数N,随机的从数据集中选取N个点作为初始质心,遍历数据集中的每个点,把各个点归为与其距离最近的质心那一类(这里样本的各个特征应该同等重要,所以应该把数据标准化)。把所有数据聚为N类之后,选取每一类各个样本特征的
阅读全文
摘要:1.什么时候要进行迁移学习? 目前大多数机器学习算法均是假设训练数据以及测试数据的特征分布相同。然而这在现实世界中却时常不可行。例如我们我们要对一个任务进行分类,但是此任务中数据不充足(在迁移学习中也被称为目标域),然而却有大量的相关的训练数据(在迁移学习中也被称为源域),但是此训练数据与所需进行的
阅读全文
摘要:1.iForest(独立森林)算法 样本数据过大时推荐采用这种异常值检测方法 原理分析:iForest森林也由大量的树组成。iForest中的树叫isolation tree,简称iTree。iTree树和决策树不太一样,其构建过程也比决策树简单,因为其中就是一个完全随机的过程。具体实施过程如下:第
阅读全文