随笔分类 -  爬虫

摘要:转载自:https://zhuanlan.zhihu.com/p/72711337 背景 当我们在爬取网站的时候,可能会出现这么一种情况:我们并不能完全确定该网站的所有字段。即是说,我们的 item 是动态的。但是,使用 scrapy 的时候我们往往都是先定义的 item ,处理了所有字段。通过研读 阅读全文
posted @ 2020-07-17 11:27 牛公的跑奔 阅读(571) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2020-06-12 22:48 牛公的跑奔 阅读(2) 评论(0) 推荐(0) 编辑
摘要:一、切换页面 有时候窗口中有许多子tab页面。这时候肯定是需要进行切换的。selenium提供了一个叫做switch_to.window来进行切换,具体切换到哪个页面,可以从driver.window_handles中找到。 1 from selenium import webdriver 2 3 阅读全文
posted @ 2020-06-11 16:59 牛公的跑奔 阅读(697) 评论(0) 推荐(0) 编辑
摘要:一、操作cookie 1 from selenium import webdriver 2 3 driver_path = 'D:\chromedriver\chromedriver.exe' 4 driver = webdriver.Chrome(executable_path=driver_pa 阅读全文
posted @ 2020-06-11 15:58 牛公的跑奔 阅读(289) 评论(0) 推荐(0) 编辑
摘要:有时候在页面的操作很多,那么这时候可以使用行为链类ActionChains类完成。比如 现在要将鼠标移动到某个元素上并执行点击事件。 1 from selenium import webdriver 2 from selenium.webdriver.common.action_chains imp 阅读全文
posted @ 2020-06-11 15:03 牛公的跑奔 阅读(346) 评论(0) 推荐(0) 编辑
摘要:一、常见的定位元素方法 1 from selenium import webdriver 2 from selenium.webdriver.common.by import By 3 driver_path = 'D:\chromedriver\chromedriver.exe' 4 driver 阅读全文
posted @ 2020-06-11 14:46 牛公的跑奔 阅读(468) 评论(0) 推荐(0) 编辑
摘要:在爬取一些网页的时候,会发现网页的有些内容是通过JS动态加载的,也就是说是ajax数据,如下图。整个如果需要查看更多的文章,就需要【阅读更多】按钮,这时页面就会加载更多的文章,但是此时网页的网址是不会改变的,没有类似page这种表示页数的参数。这种加载方式就是ajax数据。这种数据通过普通的爬虫是获 阅读全文
posted @ 2020-06-11 12:32 牛公的跑奔 阅读(637) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2020-06-07 16:32 牛公的跑奔 阅读(1) 评论(0) 推荐(0) 编辑
摘要:要将一个scrapy项目变为一个scrapy.redis项目只需要修改下面三点就可以了: 将爬虫类从scrapy.Spider 变成scrapy_redis.spiders.RedisSpider;或者从scripy.CrawlSpider变成scrapy_redis.spiders.RedisCr 阅读全文
posted @ 2020-06-02 11:44 牛公的跑奔 阅读(339) 评论(0) 推荐(0) 编辑
摘要:登录人人网的一个小例子: 1 # -*- coding: utf-8 -*- 2 import scrapy 3 import re 4 5 class RenrenSpider(scrapy.Spider): 6 name = 'renren' 7 allowed_domains = ['renr 阅读全文
posted @ 2020-05-03 17:44 牛公的跑奔 阅读(785) 评论(0) 推荐(0) 编辑
摘要:CrawlSpider继承于Spider类,除了继承过来的属性外(name、allow_domains),还提供了新的属性和方法: rules 在rules中包含一个或多个Rule对象,每个Rule对爬取网站的动作定义了特定操作。如果多个rule匹配了相同的链接,则根据规则在本集合中被定义的顺序,第 阅读全文
posted @ 2020-05-03 17:00 牛公的跑奔 阅读(296) 评论(0) 推荐(0) 编辑
摘要:转载地址:https://blog.csdn.net/qq_42517220/article/details/88988910 什么是xpath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 W3Scho 阅读全文
posted @ 2020-04-29 21:17 牛公的跑奔 阅读(213) 评论(0) 推荐(0) 编辑
摘要:4.2 scrapy 中查找 HTML 元素 4.2.1 scrapy 的 xpath 简介 例 4-2-1: 使用 xpath 查找 HTML 中的元素 from scrapy.selector import Selector htmlText=''' <html><body> <bookstor 阅读全文
posted @ 2020-04-29 20:25 牛公的跑奔 阅读(988) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-04-28 16:58 牛公的跑奔 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-04-28 16:16 牛公的跑奔 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-04-27 21:03 牛公的跑奔 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-04-27 20:58 牛公的跑奔 阅读(198) 评论(0) 推荐(0) 编辑

总访问量:AmazingCounters.com