2018 年 12月随笔档案 - 北伽

彻底搞懂scrapy的中间件第三章

摘要：彻底搞懂Scrapy的中间件（三）在前面两篇文章介绍了下载器中间件的使用，这篇文章将会介绍爬虫中间件（Spider Middleware）的使用。爬虫中间件爬虫中间件的用法与下载器中间件非常相似，只是它们的作用对象不同。下载器中间件的作用对象是请求request和返回response；爬虫中间阅读全文

posted @ 2018-12-25 15:54 北伽阅读(371) 评论(0) 推荐(0)

彻底搞懂scrapy的中间件第一章

摘要：彻底搞懂Scrapy的中间件（一）中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数阅读全文

posted @ 2018-12-25 15:53 北伽阅读(329) 评论(0) 推荐(0)

彻底搞懂scrapy的中间件第二章

摘要：彻底搞懂Scrapy的中间件（二）在上一篇文章中介绍了下载器中间件的一些简单应用，现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。在中间件中集成Selenium 对于一些很麻烦的异步加载页面，手动寻找它的后台API代价可能太大。这种情况下可以使用Selenium 阅读全文

posted @ 2018-12-25 15:53 北伽阅读(312) 评论(0) 推荐(0)

爬虫面试题

摘要：scrapy框架的工作流程？ a、spider解析下载器下下来的response，返回item或是links b、item或者link经过spidermiddleware的process_spider_out( )方法，交给engine c、engine将item交给item pipeline ，将阅读全文

posted @ 2018-12-24 18:24 北伽阅读(2699) 评论(0) 推荐(2)

python 实战爬虫项目，学会这个32个项目天下无敌

摘要：python 爬虫 32个项目（学会了你就牛了哈哈） 32个Python爬虫项目让你一次吃到撑今天为大家整理了32个Python爬虫项目。整理的原因是，爬虫入门简单快速，也非常适合新入门的小伙伴培养信心。所有链接指向GitHub，祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- 微阅读全文

posted @ 2018-12-21 12:36 北伽阅读(987) 评论(0) 推荐(0)

爬取58同城二手房数据存储到redis数据库和mysql数据库

摘要：主程序代码： 1 import scrapy 2 from scrapyDemo.items import ScrapydemoItem 3 4 class PostSpider(scrapy.Spider): 5 name = 'home' 6 # allowed_domains = ['www. 阅读全文

posted @ 2018-12-18 18:13 北伽阅读(676) 评论(0) 推荐(0)

Scrapy操作浏览器获取网易新闻数据

摘要：爬虫代码： 1 import scrapy 2 from selenium import webdriver 3 4 class WangyiSpider(scrapy.Spider): 5 name = 'wangyi' 6 # allowed_domains = ['www.xxx.com'] 阅读全文

posted @ 2018-12-18 18:09 北伽阅读(334) 评论(0) 推荐(0)

Scrapy框架中的 UA伪装

摘要：例如：百度输入ip查看是自己本机的ip，通过UA伪装成其他机器的ip, 爬虫代码： 1 import scrapy 2 3 4 class UatestSpider(scrapy.Spider): 5 name = 'UATest' 6 # allowed_domains = ['www.xxx.c 阅读全文

posted @ 2018-12-18 18:03 北伽阅读(1128) 评论(0) 推荐(0)

scrapy框架中如何使用selenuim

摘要：主程序代码： 1 import scrapy 2 from selenium import webdriver 3 4 class SelenuimtestSpider(scrapy.Spider): 5 name = 'selenuimTest' 6 # allowed_domains = ['w 阅读全文

posted @ 2018-12-18 17:56 北伽阅读(281) 评论(0) 推荐(0)

基于scrapy中---全站爬取数据----CrawlSpider的使用

摘要：#数据源：糗事百科爬虫代码： 1 import scrapy 2 from scrapy.linkextractors import LinkExtractor 3 from scrapy.spiders import CrawlSpider, Rule 4 5 6 class QiubaiSpi 阅读全文

posted @ 2018-12-18 17:52 北伽阅读(163) 评论(0) 推荐(0)

基于百度AI的自然语言处理文字分类

摘要：前言：需要在百度AI平台注册登录并创建项目。爬虫代码 1 import scrapy 2 from BaiDuAi.items import BaiduaiItem 3 4 class AiSpider(scrapy.Spider): 5 name = 'ai' 6 # allowed_doma 阅读全文

posted @ 2018-12-18 17:48 北伽阅读(950) 评论(0) 推荐(0)

基于scrapy-redis两种形式的分布式爬虫

摘要：redis分布式部署 1.scrapy框架是否可以自己实现分布式？ - 不可以。原因有二。其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）其二：多台机器爬取到的数据无法通过同一个管道对数据阅读全文

posted @ 2018-12-18 17:44 北伽阅读(438) 评论(0) 推荐(0)

Scrapy框架的应用———爬取Boss招聘网站关于爬虫工程师的名称和薪资

摘要：项目主代码 1 import scrapy 2 from boss.items import BossItem 3 4 class BossproSpider(scrapy.Spider): 5 name = 'bossPro' 6 # allowed_domains = ['www.baidu.c 阅读全文

posted @ 2018-12-13 17:06 北伽阅读(157) 评论(0) 推荐(0)

Scrapy框架的应用———爬取糗事百科文件

摘要：项目主代码： 1 import scrapy 2 from qiushibaike.items import QiushibaikeItem 3 4 class QiubaiSpider(scrapy.Spider): 5 name = 'qiubai' 6 # allowed_domains = 阅读全文

posted @ 2018-12-13 17:02 北伽阅读(128) 评论(0) 推荐(0)

Scrapy的框架简介和基础应用

摘要：scrapy框架简介和基础应用内容介绍 scrapy框架介绍环境安装基础使用内容详情一.什么是Scrapy？ Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有阅读全文

posted @ 2018-12-13 16:57 北伽阅读(164) 评论(0) 推荐(0)

移动端数据爬取

摘要：移动端数据爬取前言随着移动市场的火热，各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据，那这些数据我们是否可以去享用一下呢？那么接下来就进入我们的移动端APP数据的爬虫中来吧。今日概要 fiddler简介手机AP 阅读全文

posted @ 2018-12-13 09:07 北伽阅读(548) 评论(0) 推荐(0)

Selenium+phanmJs 操作浏览器爬取数据

摘要：什么是selenium？是Python的一个第三方库，对外提供的接口可以操作浏览器，然后让浏览器完成自动化的操作。环境搭建安装selenum：pip install selenium 获取某一款浏览器的驱动程序（以谷歌浏览器为例）谷歌浏览器驱动下载地址：http://chromedriver 阅读全文

posted @ 2018-12-12 21:01 北伽阅读(191) 评论(0) 推荐(0)

基于线程池的梨视频爬取

摘要：需求：爬取梨视频中的视频数据 https://www.pearvideo.com/category_4 代码如下 1 import requests 2 from lxml import etree 3 import re 4 import random 5 %%time 6 from multip 阅读全文

posted @ 2018-12-12 20:53 北伽阅读(315) 评论(0) 推荐(0)

基于cookie登录+验证码如何爬取

摘要：实例：需求：获取人人网用户登录过后的个人主页数据 1 #云打码平台登录，直接下载引用就好，无需更改 2 import http.client, mimetypes, urllib, json, time, requests 3 class YDMHttp: 4 5 apiurl = 'http:/ 阅读全文

posted @ 2018-12-12 20:45 北伽阅读(682) 评论(0) 推荐(0)

BeautifulSoup /bs4 爬虫实例

摘要：需求：使用bs4实现将诗词名句网站中三国演义小说的每一章的内容爬去到本地磁盘进行存储 http://www.shicimingju.com/book/sanguoyanyi.html 1 from bs4 import BeautifulSoup 2 import requests 3 4 url 阅读全文

posted @ 2018-12-12 20:39 北伽阅读(979) 评论(0) 推荐(0)

Xpath数据解析

摘要：好段子网内容爬取 1 from lxml import etree 2 import requests 3 url='http://www.haoduanzi.com' 4 headers = { 5 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW6 阅读全文

posted @ 2018-12-12 20:37 北伽阅读(438) 评论(0) 推荐(0)

简单的正则解析

摘要：简单的正则代码如下： 1 import re 2 #提取出python 3 key="javapythonc++php" 4 re.findall('python',key)[0] 5 # ###################################################### 阅读全文

posted @ 2018-12-12 20:35 北伽阅读(223) 评论(0) 推荐(0)

云打码

摘要：1、云打码平台注册开发者模式用户登录 2、建立项目，下载项目案列代码接口代码如下： 1 import http.client, mimetypes, urllib, json, time, requests 2 3 ######################################### 阅读全文

posted @ 2018-12-12 20:31 北伽阅读(598) 评论(0) 推荐(0)

简单爬虫实例

摘要：代码工具：jupyter 抓包工具：fiddle 1：搜狗页面内容爬取 1 import requests 2 3 url='https://www.sogou.com/' 4 response=requests.get( 5 url=url 6 ) 7 text=response.text 8 t 阅读全文

posted @ 2018-12-10 19:45 北伽阅读(245) 评论(0) 推荐(0)

北伽

每一个不曾起舞的日子，都是对生命的辜负

12 2018 档案

公告