随笔分类 - 机器学习有关的数学
摘要:什么是目标类别不平衡? 假设你训练集中数据的目标类别的分布较为均匀,那么这样的数据集所建立的分类模型,通常会有比较好的分类效能。 假设你训练集中数据的目标类别的分布不均匀(存在Majority Class和Minority Class的时候),那么这样的数据集造成的问题是分类模型通常倾向将所有数据预
阅读全文
摘要:为什么C4.5会出现? 因为ID3算法节点的分支越多,信息增益也就越大,这会出现过拟合的现象,因此提出C4.5算法。 图1 C4.5的属性选择方法——获利比例 获利比例=信息增益/分支度IV 分支度IV与各分支下的类别数目之比成负相关: 假如14个样本一共分4支: 划分方法1为:分支1数目:分支2数
阅读全文
摘要:ensemble learning(中文名:集成学习)概念介绍 集成学习这一概念,在目前各大数据挖掘竞赛中使用的非常广泛。 它的主要原理是将多个模型的决策结合起来,提高整体的预测效果。 这一概念可以进一步分类,大致可划分为:模型融合与机器学习元算法 模型融合技术:将训练出的强学习器组合起来,进一步来
阅读全文
摘要:全连接神经网络: 网络结构是从输入层到隐含层,再到输出层,层与层之间是有连接的,隐含层之间的结点是无连接的。 循环神经网络: 隐含层之间的结点使连接是,隐含层的输入不仅包括输入层的输出,还包括上一时刻隐含层的输出。
阅读全文
摘要:word mover's Distance 优点: 1.效果出色 2.无监督:不需要标注数据 3.模型简单:仅将词向量作为结果输入 4.可解释下:问题转为线性规划,有全局最优解 5.灵活性:可以人为干预词的重要性 缺点: 1.词袋模型,没有保留语序信息 2.不能很好地处理词向量的out of voc
阅读全文
摘要:TextRank是啥: 一种用于文本的基于图的排序算法。 优点: 不需要学习训练。 模型原理: TextRank可以表示为一个有向有权图G=(V,E),图中任何两点Vi 和Vj之间的边的权重为wji,对于一个给定的点Vi ,In(Vi )为指向该点的点集合。out(Vi )为点Vi指向的点集合。 点
阅读全文
摘要:内容来自CSDN--作者为zsffuture https://blog.csdn.net/weixin_42398658/article/details/83017995 什么是梯度? 以二元函数为例,如果一个函数为f(x,y),某点(x0,y0)的梯度为: 由定义可以看出,梯度为一个向量。 要进一
阅读全文