返回顶部
摘要: 信号 Django中提供了“信号调度”,用于在框架执行操作时解耦。通俗来讲,就是一些动作发生的时候,信号允许特定的发送者去提醒一些接受者。 1、Django内置信号 对于Django内置的信号,仅需注册指定信号,当程序执行相应操作时,自动触发注册函数: from django.core.signal 阅读全文
posted @ 2018-10-06 23:49 Crazymagic 阅读(94) 评论(0) 推荐(0) 编辑
摘要: scrapy引擎来爬虫中取起始URL: 源码 我们可以实现自定义 深度和优先级 from scrapy.spidermiddlewares.depth import DepthMiddleware 内置代理 1 在环境变量中添加,在爬虫启动时,提前在os.envrion中设置代理即可。 2 在met 阅读全文
posted @ 2018-10-06 22:36 Crazymagic 阅读(1457) 评论(0) 推荐(0) 编辑
摘要: pipeline 格式化处理 如果对于想要获取更多的数据处理,则可以利用Scrapy的items将数据格式化,然后统一交由pipelines来处理。我们可以在利用pipeline在爬虫开始时打开数据的链接,子爬虫结束后关闭数据库的链接 使用方法: a. 先写pipeline类 class XXXPi 阅读全文
posted @ 2018-10-06 20:11 Crazymagic 阅读(603) 评论(0) 推荐(0) 编辑
摘要: Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Ser 阅读全文
posted @ 2018-10-06 03:37 Crazymagic 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 网页版微信登陆网址 获取微信登陆的二维码 在浏览器中访问登陆接口 我们查找二维码的图片可以看到 其中src为 而我们每次刷新都会生成一个新的二维码 多刷新几次我们会发现二维码中src最后面的qrcode/......值每次都会改变 ,索引肯定会有一些请求可以获取这些值 我们继续追踪发现下面的地址会返 阅读全文
posted @ 2018-10-06 02:41 Crazymagic 阅读(4958) 评论(0) 推荐(0) 编辑