visual studio中创建python的爬虫 scrapy项目
scrapy教程:https://zhuanlan.zhihu.com/p/598764670
xpath教程:https://www.runoob.com/xpath/xpath-syntax.html
1.在命令行中安装 scrapy环境。一定要安装,是为了在指定的目录下创建一个 scrapy的模板项目。
命令: pip install scrapy
2.创建 scrapy的项目。
命令:scrapy startproject cnblogsHAHA01 C:\Users\huanhua\source\repos\cnblogsHAHA01
3、用vistual studio打开创建的项目
注意:
打开项目后 , itmes.py,pipelines.py 等等这些 生成的文件编码格式不是 uft-8,在这些代码中写入中文的时候会出现异常,乱码。所以一定要把文件的编码格式改成 utf-8
在单独的项目的 Python环境 一定要安装一遍scrapy程序包。
4、新建一个爬虫的逻辑类 cnblogsSpider.py
5、执行爬虫,抓取数据,新建一个 启动类:entrypoint.py
执行方法一:
方法二:直接运行
#execute(['scrapy','crawl','cnblogsHAHA01'])
execute('scrapy crawl cnblogsHAHA01 -o cnblogsHAHA01.csv'.split())
#execute('scrapy crawl cnblogsHAHA01 -o cnblogsHAHA01.json'.split())
代码: 下载