scrapy 简单介绍
这篇主要介绍的是在Windows环境安装scrapy以及用创建一个spider
一 , install Scrapy(首先检查Python环境 , 现在安装Python的时候一般都会自动安装pip,pip会用的比较多,没有安装的可以在百度的介绍下安装)
1. 安装pywin32
打开CMD , 输入 pip install pywin32
这个是安装pywin32库的语法 , 这个安装一般会成功 , 如果失败 , 请百度 。
2.安装pyOPENSSL
接着上面输入 pip install pyOPENSSL
一般不会报错
3.安装 lxml
输入 pip install lxml
4.安装scrapy
输入 pip install scrapy
一般会报 error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
把错误提示贴到百度 , 会有解决办法 , 最后的结果是下一个whl文件 , 然后去安装它 , 完成后再次pip install scrapy , 一般来说就不会出错了 。
二 ,create spider
1, create scrapy project
在CMD中跳到想要保存文件的目录下
输入 scrapy startproject yourProjectName
2.,create spider
进入yourProjectName文件夹
输入scrapy genspider yourSpiderName yourSpiderName.com
3,最后找一个Python开发工具打开写代码就可以了,我用的是VSCODE。
爬虫主体代码应该在spider目录下yourSpiderName.py文件里编写
settings.py 这个文件比较重要 , 里面有很多关于爬虫的设置 , 比如设置agent等 。里面设置搜索百度,介绍会比较详细。
4.最后就是执行这个spider
在CMD中打开该目录输入 scrapy crawl yourSpiderName 就可以执行这个spider了
三, 总结
1.基本上介绍的知识和步骤都比较基础 , 但是只有了解这些基础后才可以向深处发展 。
2.关于内容检索我用的是BS4这个库 , 挺好用 , 可以去官网查它的详细介绍 。
如有错误 , 请留言 。
希望这篇文章能够帮助到你 : )