自然语言处理相关数据集和语料

这里给出了常用的自然语言处理任务的数据集以及一些语料库的链接下载,分中英文两个方面。大部分是电商评论类的数据。

英文数据集

Web data: Amazon reviews
https://snap.stanford.edu/data/web-Amazon.html
http://jmcauley.ucsd.edu/data/amazon/
Restaurant Reviews Dataset
http://www.cs.cmu.edu/~mehrbod/RR/
Movie Review Data
http://www.cs.cornell.edu/people/pabo/movie-review-data/

中文数据集

Amazon.cn Dataset:
https://sites.google.com/site/homecxu/dataset
自然语言处理与信息检索共享平台:
http://www.nlpir.org/?action-category-catid-28
电商评论数据:
http://yongfeng.me/dataset/
大规模中文自然语言处理语料:
https://github.com/brightmart/nlp_chinese_corpus
中文公开聊天语料库:
https://github.com/codemayq/chinese_chatbot_corpus

其他海量数据集

http://rensanning.iteye.com/blog/1601663

posted @ 2017-09-10 13:45  黄然小悟  阅读(60)  评论(0编辑  收藏  举报