转:UCI数据集和源代码&数据挖掘的数据集资源
《UCI数据集和源代码》
UCI数据集是一个常用的标准测试数据集,下载地址在
http://www.ics.uci.edu/~mlearn/MLRepository.html
我的主页上也有整理好的一些UCI数据集(arff格式):
http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.zip
在看别人的论文时,别人使用的数据集会给出数据集的出处或下载地址(除非是很机密的数据,例如与国家安全有关)。如果你看的论文没有给出数据集的出处,请立即停止看这篇论文,并且停止看刊发这篇论文的期刊上的所有文章。因为可以断定这些文章质量很差。
关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
http://www.cs.waikato.ac.nz/ml/weka/
很多的机器学习的经典算法都在里面。而且公布源程序,易于修改。
如果作者没有公布源程序,可以到作者主页找找,也可以写信给作者要,一般论文开头都会有作者的email地址。写信的时候要注意要很有礼貌,否则作者,尤其是著名学者,很有可能不会理睬。如果算法简单,可以自己实现。
关于论文的下载,如果能够访问电子图书馆是最好的,很多学校都买了IEEE, Elsevier, Kluwer等,上面的期刊都不错。有一些很好的期刊是免费的,像JAIR和JMLR,分别在:
http://www.cs.washington.edu/research/jair/home.html
如果能访问的免费期刊太少,可以到CiteSeer上搜索(http://citeseer.ist.psu.edu/ ),上面搜集了很多免费论文(但是要注意,论文的质量参差不齐),或者用Googlewww.google.com )搜索。
再嘱咐两点,要做研究,首先要打好基础,例如数学基础和程序设计能力,要学会熟练使用google等搜索引擎,还有一定要看高质量的论文。
《数据挖掘的数据集资源》
大家做数据挖掘研究时,常常为找不到合适的数据而发愁。在KDNuggets上有Datasets栏目,提供一些数据集,网址为:http://www.kdnuggets.com/datasets/
还有另外一个很好的资源网址为:http://kdd.ics.uci.edu/ ,里面包含的数据资源如下(按应用领域划分):
Direct Marketing
KDD CUP 1998 Data
GIS
Forest CoverType
Indexing
Corel Image Features
Pseudo Periodic Synthetic Time Series
Intrusion Detection
KDD CUP 1999 Data
Process Control
Synthetic Control Chart Time Series
Recommendation Systems
Entree Chicago Recommendation Data
Robots
Pioneer-1 Mobile Robot Data
Robot Execution Failures
Sign Language Recognition
Australian Sign Language Data
High-quality Australian Sign Language Data
Text Categorization
20 Newsgroups Data
Reuters-21578 Text Categorization Collection
NSF Research Awards Abstracts 199 0-2003
World Wide Web
Microsoft Anonymous Web Data
MSNBC Anonymous Web Data
Syskill Webert Web Data
转:http://blogger.org.cn/blog/more.asp?name=DMman&id=24043
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b
2、几个实用的测试数据集下载的网站
http://www.cs.toronto.edu/~roweis/data.html
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html
以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
可能有一些不能访问,但是总有能访问的吧:
UCI收集的机器学习数据集
http://www.ics.uci.edu/~mlearn//MLRepository.htm
statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
样本数据库
http://www.ics.uci.edu/~mlearn/MLRepository.html
关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/
进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/
apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html
数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
kdnuggets 相关链接数据集(借花献佛了):
http://www.kdnuggets.com/datasets/index.html
你也可以到http://blogger.org.cn/blog/more.asp?name=idmer&id=24017
察看kdnuggets 数据集资源的详细介绍。
数据挖掘相关比赛以及数据集
2005 University of California data mining contest , predicting bad accounts and their churn date using real-world CRM data, deadline June 30, 2005.
k-means聚类(使用数据集:iris)
12-29UCI数据集(数据挖掘)
11-14从0到1学好区块链开发,一年编程经验学完月薪可达40K+
立即申请试学,成为时代颠覆者
常见聚类数据集人工数据和UCI数据都有
01-26聚类分析常用数据集
03-26聚类算法之K-means算法-UCI数据集上的java实现
3473
本文主要分析了K-means聚类算法的基本原理,时间复杂度以及优缺点,最后用UCI数据集进行了测试,包含java实现代码,适合初学者参考。...来自: 笑*容的博客
聚类分析、机器学习及数据挖掘中常用数据集
09-02uci聚类测试数据集
下载
09-15
该文件有六百条数据,每100条是一类。可用于聚类的测试。... *详细原因: 取 消 提 交 uci聚类测试数据集 3积分 立即下载 ...
UCI数据集
下载
09-19
是arff 格式的数据,应该非常有用,可以测试一些数据挖掘分类算法的准确度,对学习...常见聚类数据集人工数据和UCI数据都有 97 2018-01-26 chenguangchun1993 VIP...
zz 数据挖掘, 机器学习的测试数据集 - 美国UCI数据集
974
UCI数据集是一个常用的标准测试数据集,下载地址在 http://www.ics.uci.edu/~mlearn/MLRepository.html 我的主页上也有整理好的一些UCI数据集: h...来自: 精力极有限,人生极短暂
用机器学习算法对UCI上的三个数据集做预测
02-07arff数据集全集
08-25python中使用k-means对鸢尾花数据集聚类
5695
代码和结果:import matplotlib.pyplot as plt import numpy as np from sklearn.cluster import KMeans from...来自: masbbx123的博客
聚类测试数据
08-15数据挖掘聚类分析技术实验常用真实数据集
03-19对adult数据集建立朴素贝叶斯模型评估并可视化(awk+hive+java+mysql+echarts)
1609
总结下这段时间的收获 分为三部分 linux echarts 数据挖掘 最近做了个课设,要给adult数据集建立合适的分类器,并对分类器评估 分享一下成果,有好多问题完成后才知道,仅供和我一样的初学...来自: 呵少侠的博客
K-means聚类数据.rar
11-16二维聚类数据集
09-30常用聚类分析数据集
07-01adult数据集分析
02-15[035]Java实现SVM对乳腺癌检测数据分类分析
1679
背景简介:最近在做SVM分类的学习,查看网上大多相关内容都是SVM原理介绍、推导和用终端命令行使用svm-train,svm-predict。具体数据分析实现很少。通过查找资料发现了一个很好的开发库L...来自: friendpengyou的专栏
【Python数据挖掘课程】五.线性回归知识及预测糖尿病实例
1.3万
今天主要讲述的内容是关于一元线性回归的知识,Python实现,包括以下内容: 1.机器学习常用数据集介绍 2.什么是线性回顾 3.LinearRegre...来自: 杨秀璋的专栏
多视图聚类数据集mfeat
09-08聚类常用数据集
12-29常用UCI数据集
06-04重叠聚类数据集
07-28聚类、分类所用数据集
09-06没有更多推荐了,返回首页