• 博客园logo
  • 会员
  • 周边
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
oooooolr
You can do anything but not everything. ——David Allen
博客园    首页    新随笔    联系   管理    订阅  订阅
上一页 1 2 3 4 下一页
2019年3月8日
scrapy流程图
摘要: refer:https://blog.yongli1992.com/2015/02/08/python-scrapy-module/ 这里是一张Scrapy架构图的展示。Scrapy Engine负责整个程序的运行。Scheduler负责调度要访问的网址。Downloader负责从网络获取响应。Sp 阅读全文
posted @ 2019-03-08 13:36 oooooolr 阅读(342) 评论(0) 推荐(0)
改写pipeline
摘要: 为什么要改写方法:get_media_requests,他们的区别在哪里 refer: https://www.imooc.com/article/21840 这篇文章介绍了多种实例 如果文件名生成规则更加复杂,可以参考znns项目中的pipeline编写。他这里要根据路径生成多级文件夹保存图片,所 阅读全文
posted @ 2019-03-08 13:30 oooooolr 阅读(317) 评论(0) 推荐(0)
2019年3月7日
super()
摘要: from https://mozillazg.com/2016/12/python-super-is-not-as-simple-as-you-thought.html# 这个作者真的牛逼 在单继承中 super 就像大家所想的那样,主要是用来调用父类的方法的。 你觉得执行下面代码后, b.n 的值 阅读全文
posted @ 2019-03-07 10:15 oooooolr 阅读(258) 评论(0) 推荐(0)
2019年3月6日
os.path.join
摘要: os.path.join()函数: 第一个以”/”开头的参数开始拼接,之前的参数全部丢弃。 以上一种情况为先。在上一种情况确保情况下,若出现”./”开头的参数,会从”./”开头的参数的上一个参数开始拼接 import os print("1:",os.path.join('aaaa','/bbbb' 阅读全文
posted @ 2019-03-06 21:51 oooooolr 阅读(191) 评论(0) 推荐(0)
2019年3月5日
scrapy item pipeline
摘要: 另可以添加别的方法 阅读全文
posted @ 2019-03-05 21:05 oooooolr 阅读(186) 评论(0) 推荐(0)
学习使用scrapy itemspipeline过程
摘要: 开始非常不理解from https://www.jianshu.com/p/18ec820fe706 找到了一个比较完整的借鉴,然后编写自己的煎蛋pipeline 首先在items里创建 然后在settings里面打开pipeline 然后在pipeline里编写jianpipeline 在spid 阅读全文
posted @ 2019-03-05 20:16 oooooolr 阅读(402) 评论(0) 推荐(0)
2019年3月3日
dygod.net
摘要: 刚开始报错,因为 start_urls的https://www.dygod.net/html/gndy/dyzz/index.html最后多了一个/ 后来继续报错,filter offline ....dygod.net,没搞清楚就直接把allowed_domains注释掉了就好了。。。, 但是扒下 阅读全文
posted @ 2019-03-03 10:08 oooooolr 阅读(4123) 评论(0) 推荐(0)
2019年3月2日
https://scrapingclub.com/exercise/detail_sign/
摘要: 关键在于把token转成MD5 用到了其中的两句,不知道为什么要update,其中就像原作者说的,不能直接hashlib.md5(str)必须是byte,需要转码一次 阅读全文
posted @ 2019-03-02 11:21 oooooolr 阅读(282) 评论(0) 推荐(0)
2019年3月1日
https://scrapingclub.com/exercise/basic_captcha/
摘要: 这次练习的过程中遇到了很多坑,大坑第一条:因为我每次都是在以前建好的project上直接修改请求地址,修改了starturl后没有修改Formrequest的导致一直获取不到验证码的地址,在scrapy shell试过很多次之后不明白为什么,后来换成xpath,xpath用的少,语法不熟悉又重新查看 阅读全文
posted @ 2019-03-01 16:52 oooooolr 阅读(306) 评论(0) 推荐(0)
https://scrapingclub.com/exercise/basic_login/
摘要: 遇到的问题:csrftoken cfduid 是在request.headers里面的,一直在找怎么在scrapy里get request.header,从scrapy shell ,then fetch then request.headers可以get正确的内容,但是scrapy project中,不知道怎么写代码,网上找到response.request.headers,这个写法,但是返回... 阅读全文
posted @ 2019-03-01 11:21 oooooolr 阅读(726) 评论(0) 推荐(0)
上一页 1 2 3 4 下一页
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3