摘要: redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以。原因有二。 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据 阅读全文
posted @ 2018-12-18 17:44 北伽 阅读(438) 评论(0) 推荐(0) 编辑
摘要: 项目主代码 1 import scrapy 2 from boss.items import BossItem 3 4 class BossproSpider(scrapy.Spider): 5 name = 'bossPro' 6 # allowed_domains = ['www.baidu.c 阅读全文
posted @ 2018-12-13 17:06 北伽 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 项目主代码: 1 import scrapy 2 from qiushibaike.items import QiushibaikeItem 3 4 class QiubaiSpider(scrapy.Spider): 5 name = 'qiubai' 6 # allowed_domains = 阅读全文
posted @ 2018-12-13 17:02 北伽 阅读(108) 评论(0) 推荐(0) 编辑
摘要: scrapy框架简介和基础应用 内容介绍 scrapy框架介绍 环境安装 基础使用 内容详情 一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有 阅读全文
posted @ 2018-12-13 16:57 北伽 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 移动端数据爬取 前言 随着移动市场的火热,各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据,那这些数据我们是否可以去享用一下呢?那么接下来就进入我们的移动端APP数据的爬虫中来吧。 今日概要 fiddler简介 手机AP 阅读全文
posted @ 2018-12-13 09:07 北伽 阅读(532) 评论(0) 推荐(0) 编辑
摘要: 什么是selenium? 是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作。 环境搭建 安装selenum:pip install selenium 获取某一款浏览器的驱动程序(以谷歌浏览器为例) 谷歌浏览器驱动下载地址:http://chromedriver 阅读全文
posted @ 2018-12-12 21:01 北伽 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 需求:爬取梨视频中的视频数据 https://www.pearvideo.com/category_4 代码如下 1 import requests 2 from lxml import etree 3 import re 4 import random 5 %%time 6 from multip 阅读全文
posted @ 2018-12-12 20:53 北伽 阅读(314) 评论(0) 推荐(0) 编辑
摘要: 实例: 需求:获取人人网用户登录过后的个人主页数据 1 #云打码平台登录,直接下载引用就好,无需更改 2 import http.client, mimetypes, urllib, json, time, requests 3 class YDMHttp: 4 5 apiurl = 'http:/ 阅读全文
posted @ 2018-12-12 20:45 北伽 阅读(656) 评论(0) 推荐(0) 编辑
摘要: 需求:使用bs4实现将诗词名句网站中三国演义小说的每一章的内容爬去到本地磁盘进行存储 http://www.shicimingju.com/book/sanguoyanyi.html 1 from bs4 import BeautifulSoup 2 import requests 3 4 url 阅读全文
posted @ 2018-12-12 20:39 北伽 阅读(962) 评论(0) 推荐(0) 编辑
摘要: 好段子网内容爬取 1 from lxml import etree 2 import requests 3 url='http://www.haoduanzi.com' 4 headers = { 5 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW6 阅读全文
posted @ 2018-12-12 20:37 北伽 阅读(426) 评论(0) 推荐(0) 编辑