数据集:用于数据挖掘、推荐系统等


stanford dataset全集
有很多数据集,覆盖种类也较多

下面是美国UCI机器学习中心提供的数据集:
 
感觉对自己比较有用的:
 
学生的基本信息,用于学生学业表现预测:http://archive.ics.uci.edu/ml/datasets/Student+Performance
 
有情感标注的语句数据集,可用于情感分析:http://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences
 
汽车评价和酒店评价的数据集,这个是文本评价,比较遗憾的是没有评价用户的信息:http://archive.ics.uci.edu/ml/datasets/OpinRank+Review+Dataset
 
饭店评价的数据集,有饭店信息、用户信息,评分信息。数据量比较小,可用于(上下文)推荐系统的研究:
 
38000位用户在一周之内访问网站 www.microsoft.com的信息。对每个用户,列出了其访问该网站的所有领域。用户用id标识,没有其他用户信息,数据较老(1998年)。可用于推荐系统研究:http://archive.ics.uci.edu/ml/datasets/Anonymous+Microsoft+Web+Data
 
sina微博的数据集,包括用户信息,微博信息,微博转发等信息:http://archive.ics.uci.edu/ml/datasets/microblogPCU
 
 
posted @ 2015-12-22 15:22  colors  阅读(517)  评论(0编辑  收藏  举报