oooooolr - 博客园

2019年3月8日

摘要： refer：https://blog.yongli1992.com/2015/02/08/python-scrapy-module/ 这里是一张Scrapy架构图的展示。Scrapy Engine负责整个程序的运行。Scheduler负责调度要访问的网址。Downloader负责从网络获取响应。Sp 阅读全文

posted @ 2019-03-08 13:36 oooooolr 阅读(352) 评论(0) 推荐(0)

改写pipeline

摘要：为什么要改写方法：get_media_requests，他们的区别在哪里 refer： https://www.imooc.com/article/21840 这篇文章介绍了多种实例如果文件名生成规则更加复杂，可以参考znns项目中的pipeline编写。他这里要根据路径生成多级文件夹保存图片，所阅读全文

posted @ 2019-03-08 13:30 oooooolr 阅读(322) 评论(0) 推荐(0)

2019年3月7日

super()

摘要： from https://mozillazg.com/2016/12/python-super-is-not-as-simple-as-you-thought.html# 这个作者真的牛逼在单继承中 super 就像大家所想的那样，主要是用来调用父类的方法的。你觉得执行下面代码后， b.n 的值阅读全文

posted @ 2019-03-07 10:15 oooooolr 阅读(264) 评论(0) 推荐(0)

2019年3月6日

os.path.join

摘要： os.path.join()函数：第一个以”/”开头的参数开始拼接，之前的参数全部丢弃。以上一种情况为先。在上一种情况确保情况下，若出现”./”开头的参数，会从”./”开头的参数的上一个参数开始拼接 import os print("1:",os.path.join('aaaa','/bbbb' 阅读全文

posted @ 2019-03-06 21:51 oooooolr 阅读(203) 评论(0) 推荐(0)

2019年3月5日

scrapy item pipeline

摘要：另可以添加别的方法阅读全文

posted @ 2019-03-05 21:05 oooooolr 阅读(195) 评论(0) 推荐(0)

学习使用scrapy itemspipeline过程

摘要：开始非常不理解from https://www.jianshu.com/p/18ec820fe706 找到了一个比较完整的借鉴，然后编写自己的煎蛋pipeline 首先在items里创建然后在settings里面打开pipeline 然后在pipeline里编写jianpipeline 在spid 阅读全文

posted @ 2019-03-05 20:16 oooooolr 阅读(409) 评论(0) 推荐(0)

2019年3月3日

dygod.net

摘要：刚开始报错，因为 start_urls的https://www.dygod.net/html/gndy/dyzz/index.html最后多了一个/ 后来继续报错，filter offline ....dygod.net，没搞清楚就直接把allowed_domains注释掉了就好了。。。，但是扒下阅读全文

posted @ 2019-03-03 10:08 oooooolr 阅读(4293) 评论(0) 推荐(0)

2019年3月2日

https://scrapingclub.com/exercise/detail_sign/

摘要：关键在于把token转成MD5 用到了其中的两句，不知道为什么要update，其中就像原作者说的，不能直接hashlib.md5(str)必须是byte，需要转码一次阅读全文

posted @ 2019-03-02 11:21 oooooolr 阅读(297) 评论(0) 推荐(0)

2019年3月1日

https://scrapingclub.com/exercise/basic_captcha/

摘要：这次练习的过程中遇到了很多坑，大坑第一条：因为我每次都是在以前建好的project上直接修改请求地址，修改了starturl后没有修改Formrequest的导致一直获取不到验证码的地址，在scrapy shell试过很多次之后不明白为什么，后来换成xpath，xpath用的少，语法不熟悉又重新查看阅读全文

posted @ 2019-03-01 16:52 oooooolr 阅读(316) 评论(0) 推荐(0)

https://scrapingclub.com/exercise/basic_login/

摘要：遇到的问题：csrftoken cfduid 是在request.headers里面的，一直在找怎么在scrapy里get request.header,从scrapy shell ,then fetch then request.headers可以get正确的内容，但是scrapy project中，不知道怎么写代码，网上找到response.request.headers，这个写法，但是返回... 阅读全文

posted @ 2019-03-01 11:21 oooooolr 阅读(735) 评论(0) 推荐(0)