数据集

下面就介绍一些获取数据的方法:

1 爬虫
最好的方法就是自己写爬虫,优点是可以自由的定制想要的数据,缺点是周期较长。

但现在随着python的兴起,越来越多的架包的开发,爬虫越来越简单实现。

跟着下面这个教程可以很快的实现一个强大的爬虫:

CSDN 爬虫教程
http://blog.csdn.net/u012052268/article/category/6889435

2 数据平台
国内一些机构贡献了一些数据集出来,大家可以在上面下载。

2.1 数据堂
数据堂 是国内比较大的大数据交易平台,上面有许多数据覆盖面很广,但是要收费,推荐有财力的实验室采购。网址: http://www.datatang.com/

2.2 搜狗实验室
搜狗实验室是比较权威的数据提供方提供的数据质量很高而且数据是免费的。网址:
http://www.sogou.com/labs/

2.3 自然语言处理与信息检索共享平台
是中科大的信息平台,上面有一些自然语言相关的数据集。网址:
http://www.nlpir.org/?action-category-catid-28

2.4 聚数力
http://dataju.cn/Dataju/web/home

3 人工收集的
这是几个博主自己总结的,质量很高。

https://zhuanlan.zhihu.com/p/25138563

https://www.zhihu.com/question/53655758/answer/146351918

https://www.douban.com/note/269081724/
---------------------
作者:最小森林
来源:CSDN
原文:https://blog.csdn.net/u012052268/article/details/78035272
版权声明:本文为博主原创文章,转载请附上博文链接!

posted @ 2019-02-12 16:02  疯吻IT  阅读(308)  评论(0编辑  收藏  举报