实验数据集整理

个人目录下:
Web
    Crawled by myself # 自己爬取的数据集
        cn 5 depth # 用nutch 0.7.2爬取的数据集,限制在cn域中,包括链接和文本
        cn-2010-01-01 # 用nutch 0.7.2爬取的数据集,限制在cn域中,包括链接和文本
        dlut.edu.cn2010-01-01 # 用nutch 0.7.2爬取的数据集,限制在dlut.edu.cn域中
        linkexchange 2010-09 # 从一些link exchange directory开始,向外爬取,可以利用这个找出大量的link exchange站点(注意:爬取时修改了nutch,或略了robot.txt的作用,因为这些link exchange站点为了保护自身而用robot.txt禁止搜索引擎的索引)
    ECML PKDD 2010 Discovery Challenge Data Set # 这个数据集是去年EPKDD挑战的数据集,这个数据集是用了做网页质量与网页分类的(高于Web Spam),但我们也可以用作Web Spam的数据集
    LAW datasets # 一堆Web数据,没有Spam相关的标记,都比较老了,做社区的可以用一用
    web09-bst # 这是09年发布的一个大型的Web数据集,有人已经了做了Spam的标记,可以用作Web Spam数据集
    WebbSpamCorpus # 这个数据集是把垃圾邮件中的一些链接经过一定的筛选当成Web Spam的,可以用这个数据来进行标记
    WEBSPAM-LIP6-2006 # 是一个比较老的,专门用来做Web Spam研究的数据集
    WEBSPAM-UK2006 # 是一个比较老的,专门用来做Web Spam研究的数据集
    WEBSPAM-UK2007 # 这也是一个专门用来做Web Spam研究的数据集,但是这个数据集中标记的Spam页面的数量有点少,可能不太符合现实的情况,建议不要单独只用这个数据集来做实验,可以多用几个数据集
Social
    bibsonomy dumps # 这个是从bibsonomy数据库中dump出来的数据集,所有的数据都有标记,是做social spam研究的一个很好的数据集,这个数据集是我跟对方签了协议得来的,请不要传播出去,并且只能用于实验目的
    Dataset for Statistics and Social Network of YouTube Videos # 这个数据集是一篇论文中提到的,是用来研究Youtube的
    delicious # 这些数据都是从delicous上爬取下来的,是用来研究social spam的数据集,其中前三个是我自己爬取的,最后一个别人爬取的
    Twitter # 这个目录下面是两个twitter数据集
    Wiki # 这个下面是两个Wikipedia数据集,另外Wikipedia数据集官方网站也有提供的
SPlog # 一个Spam blogs数据集,已经很老了
News # 一个新闻数据集,主要是从一些新闻网站上爬取下来的
Email # 邮件数据集
Other
    AOL Query Clickthrough # 少有的几份公开发行的用户点击信息之一

小组目录下:
Twitter #包括tweets和twitter graph,是两个数据集合起来的

posted on 2011-12-22 22:41  小橋流水  阅读(911)  评论(0编辑  收藏  举报

导航