随笔分类 - 爬虫
摘要:Redis scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 安装与开启redis 1 #re
阅读全文
摘要:web微信 1.扫码获取头像 当你打开web微信的时候,因为http是无状态的,web微信如何实时的获取用户的扫码动作? 那么这里用到的是长轮询的方式。 from flask import Flask,request,redirect,render_template,session,jsonify
阅读全文
摘要:Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。 Scrapy囊括了爬取网站数据几乎所有的功能,是一个扩展性很强的一个框架,Scrapy在爬虫界里相当于web的Django Scrapy 使用了 Twi
阅读全文
摘要:Selenium的使用 #!/usr/bin/env python # -*- coding:utf-8 -*- """ Selenium是一个第三方模块,可以完全模拟用户在浏览器上操作(在浏览器上点点点)。 安装: pip3 install selenium 优缺点: 优:无需再自己操作cooki
阅读全文
摘要:1.爬虫的本质是什么? 模仿浏览器的行为,爬取网页信息。 2.requests 1.get请求 无参数实例 import requests ret = requests.get('https://github.com/timeline.json') print ret.text 有参数实例 impo
阅读全文