大数据开发常用算法(转)
3.大数据开发常用算法
无论是机器学习,模式识别,数据挖掘,统计学习,计算机视觉,语音识别,自然语言处理都涉及到算法。
1.树:决策树(决策树)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的对象属性与对象值之间的一种映射关系。熵=系统的凌乱程度,使用算法ID3,C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
基于R语言和SPSS的决策树算法介绍及应用:
http://www.docin.com/p-1363155713.html
机器学习从入门到放弃之决策树算法:
http://python.jobbole.com/85555/
算法杂货铺 - 分类算法之决策树(决策树):https://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html
集体智慧编程-决策树建模(上):
https://www.cnblogs.com/itdyb/p/5020370.html
集体智慧编程-决策树建模(下):
https://www.cnblogs.com/itdyb/p/5022134.html
2.回归:在大部分机器学习课程中,回归算法都是介绍的第一个算法原因有两个:。一回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中。二回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法回归算法有两个重要的子类:。即线性回归和逻辑回归。
你应该掌握的七种回归技术:
https://www.csdn.net/article/2015-08-19/2825492
说说高斯过程回归:
https://blog.csdn.net/greenapple_shan/article/details/52402051
3.贝叶斯:贝叶斯定理用于投资,决策,分析是在已知相关项目乙的资料,而缺乏论证项目甲的直接资料时,通过对乙项目的有关状态及发生概率分析推导甲项目的状态及发生概率。贝叶斯公式(发表于1763年)为:P(H [i] / A)= P(H [i])* P(A│H[i])/ {P H [1])* P(A│H[1])+ P(H [2])* P(A│H[2])+ ... + P(H [n])* P(A│H[ N])}
算法杂货铺 - 分类算法之贝叶斯网络(贝叶斯网络):
https://blog.csdn.net/davidni619/article/details/80606409
算法杂货铺 - 分类算法之朴素贝叶斯分类(朴素贝叶斯分类):
https://blog.csdn.net/dunm_kgy314/article/details/17449055
多种贝叶斯模型构建及文本分类的实现:
https://cloud.tencent.com/developer/article/1058137
朴素贝叶斯分类之垃圾短信识别:
https://zhuanlan.zhihu.com/p/28059124
R语言与数据分析之三:分类算法1:
https://blog.csdn.net/howardge/article/details/41800091
4 svm:支持向量机算法是诞生于统计学习界,同时在机器学习界大放光彩的经典算法。
支持向量机:https://blog.csdn.net/github_38325884/article/details/74418365
5神经网络:神经网络(也称之为人工神经网络,ANN)算法是80年代机器学习界非常流行的算法,不过在90年代中途衰落。现在,携着“深度学习”之势,神经网络重装归来,重新成为最强大的机器学习算法之一,在这基础上有RNN,CNN等。
反向传播神经网络极简入门:
https://blog.csdn.net/xiaoxiangzi222/article/details/53162010
递归神经网络(RNN)在语义识别方面的应用:
http://www.sohu.com/a/113969769_465249
BP神经网络模型与学习算法:
https://www.cnblogs.com/wentingtu/archive/2012/06/05/2536425.html
6聚类-KNN,k-means,EM等:
ķ近邻法(KNN):
https://blog.csdn.net/tinkle181129/article/details/49640875
Python的实战之KNN实现:
https://www.2cto.com/kf/201512/451839.html
算法杂货铺--k均值聚类(K均值):
https://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html
EM算法:https://blog.csdn.net/qq_39388410/article/details/78235754
7降维:很多算法中,降维算法成为了数据预处理的一部分,如PCA。事实上,有一些算法如果没有降维预处理,其实是很难得到很好的效果的。
四大机器学习降维算法:PCA,LDA,LLE,Laplacian Eigenmaps :
https://wenku.baidu.com/view/5a032514172ded630a1cb6c1.html
8关联规则算法:关联算法是数据挖掘中的一类重要算法。1993年,R.Agrawal等人首次提出了挖掘顾客交易数据中项目集的关联规则问题,其核心是基于两阶段频繁集思想的递推算法。该关联规则在分类上属于单维,单层及布尔关联规则,典型的算法是Aprior算法。
FP_growth算法:
https://blog.csdn.net/baixiangxue/article/details/80335469
关联规则之Aprior算法(购物篮分析):
https://www.bbsmax.com/A/D854oZ9wJE/
9推荐算法大致可以分为三类:基于内容的推荐算法,协同过滤推荐算法和基于知识的推荐算法。
探索推荐引擎内部的秘密,第1部分:推荐引擎初探:
https://blog.csdn.net/gigikin/article/details/53365283
探索推荐引擎内部的秘密,第2部分:深入推荐引擎相关算法 - 协同过滤:
https://blog.csdn.net/sad_sugar/article/details/9327707
探索推荐引擎内部的秘密,第3部分:深入推荐引擎相关算法 - 聚类:
https://blog.csdn.net/gigikin/article/details/53365312
其它
社区划分--Label Propagatio:
https://www.jianshu.com/p/cff65d7595f9
感知机:http://www.cnblogs.com/OldPanda/archive/2013/04/12/3017100.html
一文搞懂HMM(隐马尔可夫模型):
http://www.cnblogs.com/skyme/p/4651331.html
转自https://blog.csdn.net/zytbft/article/details/80661650(由于该文分享的链接无法打开,故根据博主写的名称粘上了大部分链接,不能确定是否为同一篇文章)