随笔分类 -  机器学习有关的数学

摘要:什么是目标类别不平衡? 假设你训练集中数据的目标类别的分布较为均匀,那么这样的数据集所建立的分类模型,通常会有比较好的分类效能。 假设你训练集中数据的目标类别的分布不均匀(存在Majority Class和Minority Class的时候),那么这样的数据集造成的问题是分类模型通常倾向将所有数据预 阅读全文
posted @ 2024-03-17 12:06 猫七的blog 阅读(37) 评论(0) 推荐(0) 编辑
摘要:为什么C4.5会出现? 因为ID3算法节点的分支越多,信息增益也就越大,这会出现过拟合的现象,因此提出C4.5算法。 图1 C4.5的属性选择方法——获利比例 获利比例=信息增益/分支度IV 分支度IV与各分支下的类别数目之比成负相关: 假如14个样本一共分4支: 划分方法1为:分支1数目:分支2数 阅读全文
posted @ 2023-04-08 22:01 猫七的blog 阅读(101) 评论(0) 推荐(0) 编辑
摘要:ensemble learning(中文名:集成学习)概念介绍 集成学习这一概念,在目前各大数据挖掘竞赛中使用的非常广泛。 它的主要原理是将多个模型的决策结合起来,提高整体的预测效果。 这一概念可以进一步分类,大致可划分为:模型融合与机器学习元算法 模型融合技术:将训练出的强学习器组合起来,进一步来 阅读全文
posted @ 2021-07-06 22:27 猫七的blog 阅读(85) 评论(0) 推荐(0) 编辑
摘要:全连接神经网络: 网络结构是从输入层到隐含层,再到输出层,层与层之间是有连接的,隐含层之间的结点是无连接的。 循环神经网络: 隐含层之间的结点使连接是,隐含层的输入不仅包括输入层的输出,还包括上一时刻隐含层的输出。 阅读全文
posted @ 2020-07-24 15:39 猫七的blog 阅读(117) 评论(0) 推荐(0) 编辑
摘要:word mover's Distance 优点: 1.效果出色 2.无监督:不需要标注数据 3.模型简单:仅将词向量作为结果输入 4.可解释下:问题转为线性规划,有全局最优解 5.灵活性:可以人为干预词的重要性 缺点: 1.词袋模型,没有保留语序信息 2.不能很好地处理词向量的out of voc 阅读全文
posted @ 2020-07-24 10:17 猫七的blog 阅读(188) 评论(0) 推荐(0) 编辑
摘要:TextRank是啥: 一种用于文本的基于图的排序算法。 优点: 不需要学习训练。 模型原理: TextRank可以表示为一个有向有权图G=(V,E),图中任何两点Vi 和Vj之间的边的权重为wji,对于一个给定的点Vi ,In(Vi )为指向该点的点集合。out(Vi )为点Vi指向的点集合。 点 阅读全文
posted @ 2020-07-14 14:49 猫七的blog 阅读(816) 评论(2) 推荐(0) 编辑
摘要:内容来自CSDN--作者为zsffuture https://blog.csdn.net/weixin_42398658/article/details/83017995 什么是梯度? 以二元函数为例,如果一个函数为f(x,y),某点(x0,y0)的梯度为: 由定义可以看出,梯度为一个向量。 要进一 阅读全文
posted @ 2020-06-29 09:16 猫七的blog 阅读(350) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示