摘要:
介绍EM算法,必然会抛出一些比较复杂的公式。其实这些公式只是EM算法思想的数学推导,数学推导就是将算法思想用严谨的公式语言表达出来而已。理解EM算法思想,比看懂它的数学推导重要。 EM即最大期望算法(Expectation Maximization algorithm),是在高斯混合模型中寻找参数最 阅读全文
摘要:
背景介绍 时间序列:一组对于某一变量连续时段上的观测值。 模式识别主要涉及到两个方向:一个是复杂统计,另一个是机器学习。复杂统计是将数据拟合到已知的古典模型中,比如ARMA。而机器学习会用深度学习-神经网络,进行暴力拟合。本文主要讲述复杂统计中的AR、MA、ARMA、ARIMA四种经典模型。深度学习 阅读全文
摘要:
一、推荐算法 当你在电商网站购物时,天猫会弹出“和你买了同样物品的人还买了XXX”的信息;当你在SNS社交网站闲逛时,也会看到“你可能认识XXX“的信息;当你在微博添加关注人时,也会看到“你可能对XXX也感兴趣”等等。所有这一切,都是背后的推荐算法运作的结果。 推荐算法,不是某一个也不是某一类算法, 阅读全文
摘要:
一、概念 关联算法常用于购物篮分析:找到正向、强关联的商品集合,用来优化货架商品摆放和捆绑销售。 关联算法需要明确:频繁项集(A,B),A->B和B->A的关联方向(正、负)与关联程度(强、弱)。 频繁项集:出现次数不小于设定阀值的商品集合 电商常用单品推荐单品,称为频繁2项集,形如(A,B)。 关 阅读全文
摘要:
逻辑回归由于其简单、高效、可解释性强的特点,在实际用途中十分的广泛:从购物预测到用户营销响应,从流失分析到信用评价,都能看到其活跃的身影。可以说逻辑回归占据了分类算法中非常重要的地位。 逻辑回归:logistic regression,LR。模型公式是Logistic函数,也叫Sigmoid函数。图 阅读全文
摘要:
单变量的线性回归非常容易理解,就是生成一元一次方程: y=ax+b。x表示自变量,特征属性的值;y表示因变量,预测标签的值。 二维图像更直观:x是横坐标,y是纵坐标,a是斜率,b是与纵坐标的截距。 样本的坐标点有限,也不会都在一条直线上。如何拟合一条合理的直线,本文会详细解析。 看懂一元一次方程的推 阅读全文
摘要:
广义回归算法的分类 广义的回归算法有很多种,从用途划分有预测(即狭义回归)、分类两大类。 响应变量是连续性变量,即预测算法;响应变量是类别型变量,即分类算法。 判定边界可以用方程函数表达 特征可以是单个(单变量、二维空间),也可以是多个(多变量、高维空间)。 线性关系是直线(二维空间)、平面(高维空 阅读全文
摘要:
K-means聚类算法(K-平均/K-均值算法)是最为经典也是使用最为广泛的一种基于距离的聚类算法。基于距离的聚类算法是指采用距离作为相似性量度的评价指标,也就是说当两个对象离得近时,两者之间的距离比较小,那么它们之间的相似性就比较大。 算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价 阅读全文
摘要:
K最近邻(KNN,K-NearestNeighbor)是1967年由Cover T和Hart P提出的一种基本分类与回归方法,它是数据挖掘分类技术中最简单的方法之一,非常容易理解应用。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的(一般用距离最短表示最接近)K个邻居来代表。 阅读全文
摘要:
决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测。在其生成过程中,分割时属性选择度量指标是关键。通过属性选择度量,选择出最好的将样本分类的属性。 决策树分类算法,包括ID3算法、C4.5算法和CART算法。都属于贪婪算法,自顶向下以递归的方式构造决策树。 ID 阅读全文