2019年3月8日

摘要: 建立好项目以后,在项目文件内scrapy会搭好框架,我们只需要按照框架设置. 先定义Item 它是保存爬取到的数据的容器,其使用方法和python的字典类似,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误. 然后编写爬虫类spider, spider是用户编写用于从网站上爬取数据的类.其包 阅读全文

posted @ 2019-03-08 21:46 心酒 阅读(154) 评论(0) 推荐(0) 编辑

摘要: 创建项目时报错ModuleNotFoundError: No module named 'cryptography.hazmat.bindings._constant_time' pip install -I cryptography 使用这个命令就搞定了 阅读全文

posted @ 2019-03-08 14:16 心酒 阅读(431) 评论(0) 推荐(0) 编辑

摘要: 使用Python自带的PIP安装Scrapy需要的支持包太多了,很麻烦. 使用了Anaconda直接 conda install Scrapy.出了一堆问题 anaconda安装scrapy,使用 conda install scrapy 命令。安装完成后在命令行执行scrapy提示报错,如图: W 阅读全文

posted @ 2019-03-08 14:15 心酒 阅读(220) 评论(0) 推荐(0) 编辑

摘要: 爬虫一般在网页Post里找数据,注意大部分网页都已经反爬,会出现主要对象加密的问题,比如百度翻译就影藏了输入的内容,有道翻译进行了MD5加密,不过广大网友是给力,只要把网址里的_o去掉就又可以了 参考小甲鱼的实例,我试着爬了下百度贴吧的图片,还挺方便. import urllib.requestim 阅读全文

posted @ 2019-03-08 13:35 心酒 阅读(220) 评论(0) 推荐(0) 编辑