爬虫 - 随笔分类 - R00M

Scrapy-redis

摘要：Redis scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler - 调度器 dupefilter - URL去重规则（被调度器使用） pipeline - 数据持久化安装与开启redis 1 #re 阅读全文

posted @ 2018-07-08 00:56 R00M 阅读(314) 评论(0) 推荐(0)

基于flask的web微信

摘要：web微信 1.扫码获取头像当你打开web微信的时候,因为http是无状态的,web微信如何实时的获取用户的扫码动作? 那么这里用到的是长轮询的方式。 from flask import Flask,request,redirect,render_template,session,jsonify 阅读全文

posted @ 2018-07-07 09:28 R00M 阅读(701) 评论(0) 推荐(0)

Scrapy框架

摘要：Scrapy Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。 Scrapy囊括了爬取网站数据几乎所有的功能,是一个扩展性很强的一个框架,Scrapy在爬虫界里相当于web的Django Scrapy 使用了 Twi 阅读全文

posted @ 2018-07-06 17:24 R00M 阅读(425) 评论(0) 推荐(0)

python爬虫之Selenium

摘要：Selenium的使用 #!/usr/bin/env python # -*- coding:utf-8 -*- """ Selenium是一个第三方模块，可以完全模拟用户在浏览器上操作（在浏览器上点点点）。安装： pip3 install selenium 优缺点：优：无需再自己操作cooki 阅读全文

posted @ 2018-07-06 15:15 R00M 阅读(327) 评论(0) 推荐(0)

python爬虫之request and BeautifulSoup

摘要：1.爬虫的本质是什么? 模仿浏览器的行为,爬取网页信息。 2.requests 1.get请求无参数实例 import requests ret = requests.get('https://github.com/timeline.json') print ret.text 有参数实例 impo 阅读全文

posted @ 2018-07-05 17:02 R00M 阅读(1392) 评论(0) 推荐(0)

a3384451

随笔分类 - 爬虫

公告