数据挖掘十大经典算法一览

分类算法:C4.5 ,svm,knn,朴素贝页斯,cart

聚类算法:k-means,em

关联挖掘算法:apriori

其他:Adaboost用于综合多种分类算法

 

1,C4.5 一种决策树算法,用于分类

参见http://blog.csdn.net/aladdina/article/details/4141048

貌似之前找到一篇更详细的分析

2,k-means,聚类算法

http://blog.csdn.net/aladdina/article/details/4141089

3,svm 支持向量机 用于统计分类及回归分析,用于分类

http://blog.csdn.net/aladdina/article/details/4141094

4,Apriori算法 挖掘布尔关联规则频繁项集的算法

http://blog.csdn.net/aladdina/article/details/4141101

5,EM 最大期望算法 用于数据集聚

http://blog.csdn.net/aladdina/article/details/4141114

6,PageRank 计算网页排名,论文影响力等

http://blog.csdn.net/aladdina/article/details/4141120

7, Adaboost 迭代算法,将若干弱分类器综合为一个强分类器

http://blog.csdn.net/aladdina/article/details/4141124

8,kNN 用于分类或者回归

http://blog.csdn.net/aladdina/article/details/4141127

9,朴素贝页斯 用于分类

http://blog.csdn.net/aladdina/article/details/4141140

10,CART,用于分类

 

 

第一届大数据竞赛的相关题目概况:

 

题目一:关键词行业分析 ,为关键词标注所属类别(一共33种)百度题目

 

辅助信息为:关键词在百度搜索后的前10个标题  关键词和广告主的关系数据

上述三个数据文件的更多信息包括:

  • keyword_class.txt:关键词数据集。约1千万记录,其中100万包含标注信息。

  • keyword_titles.txt:关键词辅助信息数据集。关键词(query)和关键词检索的自然结果(title)信息。

  • keyword_users.txt:关键词与广告主关联关系数据集。关键词和广告主的购买关系,一个关键词可能被多个广告主购买,一个广告主可能购买了多个关键词。

 

题目二:移动网络寻呼黑洞分析(需要行业只是和数据库相关操作,暂不考虑)中国移动研究院出题

 

题目三:移动用户交往圈构建和特定类型用户识别(貌似依旧需要数据库支持) 中国移动研究院题目

15万已经标记,150万需要标记,识别是否为学生用户

可以扩展,利用图挖掘算法,可以进一步检测用户通话交往圈、短信交往圈

题目四:购买行为的归因分析 秒针系统出题

和广告相关,其中有些数据含义不甚了解

 

题目五,基于出租车GPS轨迹的位置服务(和推荐关系最大,数据量很大50G)  中科院出题

输入用户位置和当前事件,输出打到车的概率和等待时间,11年的数据来预测13年的路况,本身数据集是否有问题?而且出租车的状态各是指的什么?

 

分析,从行业背景角度:题目1和题目3的数据含义概念最清晰。题目2最生疏,题目4次之

 

posted @ 2013-10-11 09:48  bobo的学习笔记  阅读(764)  评论(0编辑  收藏  举报