上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 23 下一页
摘要: Apriori 算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。 频繁项集的评估标准 什么样的数据才是频繁项集呢?一起出现次数多的数据集就是频繁项集吗!的确,这也没有说错,但是有两个问题: 1)当数据量非常大的时候,我们没法直接 阅读全文
posted @ 2020-10-20 08:17 _yanghh 阅读(470) 评论(0) 推荐(0) 编辑
摘要: 阅读本篇之前,可先阅读一下主成分分析。 对于 PCA 寻找的基向量满足:样本在该基向量方向投影后的坐标方差最大。对于 LDA 则换了一个标准,不选择投影坐标方差最大的方向, 而选择能使样本点分类效果最好的方向,即:不同类别的样本点越分开越好,同类的越聚集越好。 这也就意味着,LDA 算法必须事先就知 阅读全文
posted @ 2020-10-19 07:49 _yanghh 阅读(568) 评论(0) 推荐(0) 编辑
摘要: $\bullet$ 特征值分解。 特征值分解是针对方阵的,而且这个方阵必须能够相似对角化(如果不了解可以先去阅读一下矩阵相似的博客),那么就有 $$P^{-1}AP = \Lambda \; \Rightarrow \; A = P\Lambda P^{-1}$$ 其中 $P$ 由特征向量构成,$\ 阅读全文
posted @ 2020-10-17 16:33 _yanghh 阅读(624) 评论(0) 推荐(0) 编辑
摘要: 支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。 模型包括以下几类: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机; 当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机; 当训练样 阅读全文
posted @ 2020-10-17 07:51 _yanghh 阅读(926) 评论(0) 推荐(0) 编辑
摘要: $\bullet$ 二维形式的柯西不等式: $$(a^{2} + b^{2})(c^{2} + d^{2}) \geq (ac + bd)^{2}$$ 当且仅当 $ad = bc$ 时等号成立。 $\bullet$ 三维形式的柯西不等式: $$(a_{1}^{2} + a_{2}^{2} + a_{ 阅读全文
posted @ 2020-10-14 10:46 _yanghh 阅读(18076) 评论(0) 推荐(0) 编辑
摘要: 协方差用于衡量两个变量的总体误差或协同程度。两个总体 $X,Y$ 之间的协方差定义为 $$Cov(X,Y) = E\left [ (X - E(X))(Y - E(Y)) \right ]$$ 将这个式子展开就到计算总体协方差的常用公式: $$Cov(X,Y) = E\left [ (X - E(X 阅读全文
posted @ 2020-10-13 09:13 _yanghh 阅读(5433) 评论(0) 推荐(0) 编辑
摘要: 概率论中方差用来度量随机变量和其数学期望之间的偏离程度,也称为总体方差。 设总体为 $X$,$X_{1},X_{2},\cdots,X_{n}$ 为来自总体的样本,样本容量为 $n$,总体的数学期望和方差分别为 $\mu,\sigma^{2}$,样本均值为 $\bar{X} = \frac{1}{n 阅读全文
posted @ 2020-10-13 08:53 _yanghh 阅读(3857) 评论(0) 推荐(0) 编辑
摘要: 支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。 模型包括以下几类: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机; 当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机; 当训练样 阅读全文
posted @ 2020-10-13 08:12 _yanghh 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。 在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。 PCA(Principal Com 阅读全文
posted @ 2020-10-10 16:27 _yanghh 阅读(484) 评论(0) 推荐(0) 编辑
摘要: 问题:数据总量爆炸式增加,如何从中提取真正有价值的信息,产生了新的领域(DM)。几个名词: 1)Data Mining:数据挖掘 2)Knowledge Discovery:知识发现 3)Machine Learning:机器学习(机器学习是数据挖掘的一个重要工具) 4)Knowledge Disc 阅读全文
posted @ 2020-10-10 09:46 _yanghh 阅读(1476) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 23 下一页