摘要: 首先,确定要爬取的小组,本次以豆瓣的five组为例。因为是第一次用Java爬虫,所有采取了简答的暴力循环爬取的方法,以后有时间再继续改进。(不过也可能转到Python了) 另外,本次尝试采用Spring boot开发。 1、爬取所有的帖子的链接 1.1、分析网页 小组首页 更多讨论,然后将地址栏的参 阅读全文
posted @ 2020-08-27 23:35 模糊计算士 阅读(580) 评论(0) 推荐(0) 编辑
摘要: 1、导入pymysql库和jieba库 pymysql库的安装:控制台命令行:pip install -i https://mirrors.ustc.edu.cn/pypi/web/simple pymsql 这里使用的是中科大的镜像,很快。 安装jieba库同理。 2、编写代码 # -*- cod 阅读全文
posted @ 2020-08-27 01:51 模糊计算士 阅读(895) 评论(0) 推荐(0) 编辑
摘要: Windows下命令:pip install -i https://pypi.doubanio.com/simple/ 包名 上面的例子用的是豆瓣的镜像。 我个人喜欢使用中科大的镜像:https://mirrors.ustc.edu.cn/pypi/web/simple 例如安装pymsql:pip 阅读全文
posted @ 2020-08-27 01:49 模糊计算士 阅读(181) 评论(0) 推荐(0) 编辑