摘要:
首先,确定要爬取的小组,本次以豆瓣的five组为例。因为是第一次用Java爬虫,所有采取了简答的暴力循环爬取的方法,以后有时间再继续改进。(不过也可能转到Python了) 另外,本次尝试采用Spring boot开发。 1、爬取所有的帖子的链接 1.1、分析网页 小组首页 更多讨论,然后将地址栏的参 阅读全文
摘要:
1、导入pymysql库和jieba库 pymysql库的安装:控制台命令行:pip install -i https://mirrors.ustc.edu.cn/pypi/web/simple pymsql 这里使用的是中科大的镜像,很快。 安装jieba库同理。 2、编写代码 # -*- cod 阅读全文
摘要:
Windows下命令:pip install -i https://pypi.doubanio.com/simple/ 包名 上面的例子用的是豆瓣的镜像。 我个人喜欢使用中科大的镜像:https://mirrors.ustc.edu.cn/pypi/web/simple 例如安装pymsql:pip 阅读全文