实验数据集整理

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
个人目录下:
Web
    Crawled by myself # 自己爬取的数据集
        cn 5 depth # 用nutch 0.7.2爬取的数据集,限制在cn域中,包括链接和文本
        cn-2010-01-01 # 用nutch 0.7.2爬取的数据集,限制在cn域中,包括链接和文本
        dlut.edu.cn2010-01-01 # 用nutch 0.7.2爬取的数据集,限制在dlut.edu.cn域中
        linkexchange 2010-09 # 从一些link exchange directory开始,向外爬取,可以利用这个找出大量的link exchange站点(注意:爬取时修改了nutch,或略了robot.txt的作用,因为这些link exchange站点为了保护自身而用robot.txt禁止搜索引擎的索引)
    ECML PKDD 2010 Discovery Challenge Data Set # 这个数据集是去年EPKDD挑战的数据集,这个数据集是用了做网页质量与网页分类的(高于Web Spam),但我们也可以用作Web Spam的数据集
    LAW datasets # 一堆Web数据,没有Spam相关的标记,都比较老了,做社区的可以用一用
    web09-bst # 这是09年发布的一个大型的Web数据集,有人已经了做了Spam的标记,可以用作Web Spam数据集
    WebbSpamCorpus # 这个数据集是把垃圾邮件中的一些链接经过一定的筛选当成Web Spam的,可以用这个数据来进行标记
    WEBSPAM-LIP6-2006 # 是一个比较老的,专门用来做Web Spam研究的数据集
    WEBSPAM-UK2006 # 是一个比较老的,专门用来做Web Spam研究的数据集
    WEBSPAM-UK2007 # 这也是一个专门用来做Web Spam研究的数据集,但是这个数据集中标记的Spam页面的数量有点少,可能不太符合现实的情况,建议不要单独只用这个数据集来做实验,可以多用几个数据集
Social
    bibsonomy dumps # 这个是从bibsonomy数据库中dump出来的数据集,所有的数据都有标记,是做social spam研究的一个很好的数据集,这个数据集是我跟对方签了协议得来的,请不要传播出去,并且只能用于实验目的
    Dataset for Statistics and Social Network of YouTube Videos # 这个数据集是一篇论文中提到的,是用来研究Youtube的
    delicious # 这些数据都是从delicous上爬取下来的,是用来研究social spam的数据集,其中前三个是我自己爬取的,最后一个别人爬取的
    Twitter # 这个目录下面是两个twitter数据集
    Wiki # 这个下面是两个Wikipedia数据集,另外Wikipedia数据集官方网站也有提供的
SPlog # 一个Spam blogs数据集,已经很老了
News # 一个新闻数据集,主要是从一些新闻网站上爬取下来的
Email # 邮件数据集
Other
    AOL Query Clickthrough # 少有的几份公开发行的用户点击信息之一
 
小组目录下:
Twitter #包括tweets和twitter graph,是两个数据集合起来的

posted on   小橋流水  阅读(918)  评论(0编辑  收藏  举报

编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· [AI/GPT/综述] AI Agent的设计模式综述

导航

统计

点击右上角即可分享
微信分享提示