爬虫 - 随笔分类 - 牛公的跑奔

Scrapy 动态创建 Item

摘要：转载自：https://zhuanlan.zhihu.com/p/72711337 背景当我们在爬取网站的时候，可能会出现这么一种情况：我们并不能完全确定该网站的所有字段。即是说，我们的 item 是动态的。但是，使用 scrapy 的时候我们往往都是先定义的 item ，处理了所有字段。通过研读阅读全文

posted @ 2020-07-17 11:27 牛公的跑奔阅读(605) 评论(0) 推荐(0)

selenium实战之爬取拉勾网

该文被密码保护。

posted @ 2020-06-12 22:48 牛公的跑奔阅读(2) 评论(0) 推荐(0)

爬虫之selenium和webdriver—基础（五）：切换页面和使用代理

摘要：一、切换页面有时候窗口中有许多子tab页面。这时候肯定是需要进行切换的。selenium提供了一个叫做switch_to.window来进行切换，具体切换到哪个页面，可以从driver.window_handles中找到。 1 from selenium import webdriver 2 3 阅读全文

posted @ 2020-06-11 16:59 牛公的跑奔阅读(757) 评论(0) 推荐(0)

爬虫之selenium和webdriver—基础（四）：操作cookie和显式等待与隐式等待

摘要：一、操作cookie 1 from selenium import webdriver 2 3 driver_path = 'D:\chromedriver\chromedriver.exe' 4 driver = webdriver.Chrome(executable_path=driver_pa 阅读全文

posted @ 2020-06-11 15:58 牛公的跑奔阅读(323) 评论(0) 推荐(0)

爬虫之selenium和webdriver—基础（三）：行为链

摘要：有时候在页面的操作很多，那么这时候可以使用行为链类ActionChains类完成。比如现在要将鼠标移动到某个元素上并执行点击事件。 1 from selenium import webdriver 2 from selenium.webdriver.common.action_chains imp 阅读全文

posted @ 2020-06-11 15:03 牛公的跑奔阅读(371) 评论(0) 推荐(0)

爬虫之selenium和webdriver—基础（二）：定位元素的方法和操作表单元素

摘要：一、常见的定位元素方法 1 from selenium import webdriver 2 from selenium.webdriver.common.by import By 3 driver_path = 'D:\chromedriver\chromedriver.exe' 4 driver 阅读全文

posted @ 2020-06-11 14:46 牛公的跑奔阅读(520) 评论(0) 推荐(0)

爬虫之selenium和webdriver—基础（一）

摘要：在爬取一些网页的时候，会发现网页的有些内容是通过JS动态加载的，也就是说是ajax数据，如下图。整个如果需要查看更多的文章，就需要【阅读更多】按钮，这时页面就会加载更多的文章，但是此时网页的网址是不会改变的，没有类似page这种表示页数的参数。这种加载方式就是ajax数据。这种数据通过普通的爬虫是获阅读全文

posted @ 2020-06-11 12:32 牛公的跑奔阅读(672) 评论(0) 推荐(0)

多线程下载表情包之异步爬虫

该文被密码保护。

posted @ 2020-06-07 16:32 牛公的跑奔阅读(1) 评论(0) 推荐(0)

三步将一个普通的scrapy爬虫变为分布式爬虫

摘要：要将一个scrapy项目变为一个scrapy.redis项目只需要修改下面三点就可以了：将爬虫类从scrapy.Spider 变成scrapy_redis.spiders.RedisSpider；或者从scripy.CrawlSpider变成scrapy_redis.spiders.RedisCr 阅读全文

posted @ 2020-06-02 11:44 牛公的跑奔阅读(351) 评论(0) 推荐(0)

scrapy模拟登录值携带cookie

摘要：登录人人网的一个小例子： 1 # -*- coding: utf-8 -*- 2 import scrapy 3 import re 4 5 class RenrenSpider(scrapy.Spider): 6 name = 'renren' 7 allowed_domains = ['renr 阅读全文

posted @ 2020-05-03 17:44 牛公的跑奔阅读(820) 评论(0) 推荐(0)

crawlspider的使用

摘要：CrawlSpider继承于Spider类，除了继承过来的属性外（name、allow_domains），还提供了新的属性和方法: rules 在rules中包含一个或多个Rule对象，每个Rule对爬取网站的动作定义了特定操作。如果多个rule匹配了相同的链接，则根据规则在本集合中被定义的顺序，第阅读全文

posted @ 2020-05-03 17:00 牛公的跑奔阅读(318) 评论(0) 推荐(0)

xpath_2

摘要：转载地址：https://blog.csdn.net/qq_42517220/article/details/88988910 什么是xpath？ XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。 W3Scho 阅读全文

posted @ 2020-04-29 21:17 牛公的跑奔阅读(237) 评论(0) 推荐(0)

xpath解析网页的用法

摘要：4.2 scrapy 中查找 HTML 元素 4.2.1 scrapy 的 xpath 简介例 4-2-1: 使用 xpath 查找 HTML 中的元素 from scrapy.selector import Selector htmlText=''' <html><body> <bookstor 阅读全文

posted @ 2020-04-29 20:25 牛公的跑奔阅读(1056) 评论(0) 推荐(0)

Scrapy常用命令及使用步骤

摘要：阅读全文

posted @ 2020-04-28 16:58 牛公的跑奔阅读(161) 评论(0) 推荐(0)

Scrapy爬虫框架介绍

摘要：阅读全文

posted @ 2020-04-28 16:16 牛公的跑奔阅读(121) 评论(0) 推荐(0)

BeautifulSoup库之HTML内容查找方法

摘要：阅读全文

posted @ 2020-04-27 21:03 牛公的跑奔阅读(345) 评论(0) 推荐(0)

爬虫之BeautifulSoup库解析器

摘要：阅读全文

posted @ 2020-04-27 20:58 牛公的跑奔阅读(210) 评论(0) 推荐(0)

牛公的跑奔

罗马不是一天建成的，但一定是一天一天建成的。

随笔分类 - 爬虫

公告