数据集
下面就介绍一些获取数据的方法:
1 爬虫
最好的方法就是自己写爬虫,优点是可以自由的定制想要的数据,缺点是周期较长。
但现在随着python的兴起,越来越多的架包的开发,爬虫越来越简单实现。
跟着下面这个教程可以很快的实现一个强大的爬虫:
CSDN 爬虫教程
http://blog.csdn.net/u012052268/article/category/6889435
2 数据平台
国内一些机构贡献了一些数据集出来,大家可以在上面下载。
2.1 数据堂
数据堂 是国内比较大的大数据交易平台,上面有许多数据覆盖面很广,但是要收费,推荐有财力的实验室采购。网址: http://www.datatang.com/
2.2 搜狗实验室
搜狗实验室是比较权威的数据提供方提供的数据质量很高而且数据是免费的。网址:
http://www.sogou.com/labs/
2.3 自然语言处理与信息检索共享平台
是中科大的信息平台,上面有一些自然语言相关的数据集。网址:
http://www.nlpir.org/?action-category-catid-28
2.4 聚数力
http://dataju.cn/Dataju/web/home
3 人工收集的
这是几个博主自己总结的,质量很高。
https://zhuanlan.zhihu.com/p/25138563
https://www.zhihu.com/question/53655758/answer/146351918
https://www.douban.com/note/269081724/
---------------------
作者:最小森林
来源:CSDN
原文:https://blog.csdn.net/u012052268/article/details/78035272
版权声明:本文为博主原创文章,转载请附上博文链接!
如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮,您的“推荐”将是我最大的写作动力!欢迎各位转载,但必须在文章页面明显位置给出作者和原文连接,否则保留追究法律责任的权利。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?
2015-02-12 winform程序关闭界面时弹出提示框