随笔分类 - 机器学习有关的数学

IMBALANCED TARGET DISTRIBUTIONS LEARING(目标类别不平衡学习)

摘要：什么是目标类别不平衡？假设你训练集中数据的目标类别的分布较为均匀，那么这样的数据集所建立的分类模型，通常会有比较好的分类效能。假设你训练集中数据的目标类别的分布不均匀（存在Majority Class和Minority Class的时候），那么这样的数据集造成的问题是分类模型通常倾向将所有数据预阅读全文

posted @ 2024-03-17 12:06 猫七的blog 阅读(37) 评论(0) 推荐(0) 编辑

C4.5分类树算法介绍

摘要：为什么C4.5会出现？因为ID3算法节点的分支越多，信息增益也就越大，这会出现过拟合的现象，因此提出C4.5算法。图1 C4.5的属性选择方法——获利比例获利比例=信息增益/分支度IV 分支度IV与各分支下的类别数目之比成负相关：假如14个样本一共分4支: 划分方法1为：分支1数目：分支2数阅读全文

posted @ 2023-04-08 22:01 猫七的blog 阅读(101) 评论(0) 推荐(0) 编辑

ensemble learning

摘要：ensemble learning（中文名：集成学习）概念介绍集成学习这一概念，在目前各大数据挖掘竞赛中使用的非常广泛。它的主要原理是将多个模型的决策结合起来，提高整体的预测效果。这一概念可以进一步分类，大致可划分为：模型融合与机器学习元算法模型融合技术：将训练出的强学习器组合起来，进一步来阅读全文

posted @ 2021-07-06 22:27 猫七的blog 阅读(85) 评论(0) 推荐(0) 编辑

RNN

摘要：全连接神经网络：网络结构是从输入层到隐含层，再到输出层，层与层之间是有连接的，隐含层之间的结点是无连接的。循环神经网络：隐含层之间的结点使连接是，隐含层的输入不仅包括输入层的输出，还包括上一时刻隐含层的输出。阅读全文

posted @ 2020-07-24 15:39 猫七的blog 阅读(117) 评论(0) 推荐(0) 编辑

wmd距离

摘要：word mover's Distance 优点： 1.效果出色 2.无监督：不需要标注数据 3.模型简单：仅将词向量作为结果输入 4.可解释下：问题转为线性规划，有全局最优解 5.灵活性：可以人为干预词的重要性缺点： 1.词袋模型，没有保留语序信息 2.不能很好地处理词向量的out of voc 阅读全文

posted @ 2020-07-24 10:17 猫七的blog 阅读(188) 评论(0) 推荐(0) 编辑

学习TextRank算法

摘要：TextRank是啥: 一种用于文本的基于图的排序算法。优点：不需要学习训练。模型原理： TextRank可以表示为一个有向有权图G=(V,E),图中任何两点Vi 和Vj之间的边的权重为wji,对于一个给定的点Vi ，In（Vi ）为指向该点的点集合。out（Vi ）为点Vi指向的点集合。点阅读全文

posted @ 2020-07-14 14:49 猫七的blog 阅读(816) 评论(2) 推荐(0) 编辑

学习----梯度知识

摘要：内容来自CSDN--作者为zsffuture https://blog.csdn.net/weixin_42398658/article/details/83017995 什么是梯度？以二元函数为例，如果一个函数为f（x,y）,某点（x0，y0）的梯度为：由定义可以看出，梯度为一个向量。要进一阅读全文

posted @ 2020-06-29 09:16 猫七的blog 阅读(350) 评论(0) 推荐(0) 编辑