爬虫资料理论 - 随笔分类 - kuanleung

chromedriver对应版本下载

摘要：如何找到和自己谷歌浏览器对应的驱动版本？？？？ 1.查询比如我的版本号是74.0.3729.169，只复制74.0.3729就行了，然后把复制下来的数字加到 https://chromedriver.storage.googleapis.com/LATEST_RELEASE_ 后面。如 https 阅读全文

posted @ 2022-07-01 10:21 kuanleung 阅读(29) 评论(0) 推荐(0) 编辑

关于selenium:headless，IP代理，header设置

摘要：chrome配置 from selenium import webdriver from selenium.webdriver.chrome.options import Options options = Options() options.binary_location = "C:\\Progr 阅读全文

posted @ 2020-11-18 08:39 kuanleung 阅读(105) 评论(0) 推荐(0) 编辑

爬虫--模拟request登录（27）

摘要：1. Scrapy-Request和Response（请求和响应） Scrapy的Request和Response对象用于爬网网站。通常，Request对象在爬虫程序中生成并传递到系统，直到它们到达下载程序，后者执行请求并返回一个Response对象，该对象返回到发出请求的爬虫程序。 sequen 阅读全文

posted @ 2020-08-10 15:51 kuanleung 阅读(5) 评论(0) 推荐(0) 编辑

爬虫--Spider 下载中间件(Middleware)（26）

摘要：1. Spider 下载中间件(Middleware) Spider 中间件(Middleware) 下载器中间件是介入到 Scrapy 的 spider 处理机制的钩子框架，您可以添加代码来处理发送给 Spiders 的 response 及 spider 产生的 item 和 request 2 阅读全文

posted @ 2020-08-10 15:51 kuanleung 阅读(12) 评论(0) 推荐(0) 编辑

爬虫--使用图片管道（25）

摘要：1. 介绍 Scrapy提供了一个 item pipeline ，来下载属于某个特定项目的图片，比如，当你抓取产品时，也想把它们的图片下载到本地。这条管道，被称作图片管道，在 ImagesPipeline 类中实现，提供了一个方便并具有额外特性的方法，来下载并本地存储图片: 将所有下载的图片转换成阅读全文

posted @ 2020-08-10 15:51 kuanleung 阅读(3) 评论(0) 推荐(0) 编辑

爬虫--CrawlSpiders（24）

摘要：1. CrawlSpiders 原理图 sequenceDiagram start_urls ->>调度器: 初始化url 调度器->>下载器: request 下载器->>rules: response rules->>数据提取: response rules->>调度器: 新的url 通过下面的阅读全文

posted @ 2020-08-10 15:50 kuanleung 阅读(7) 评论(0) 推荐(0) 编辑

爬虫--爬取小说（23）

摘要：爬取小说 spider import scrapy from xiaoshuo.items import XiaoshuoItem class XiaoshuoSpiderSpider(scrapy.Spider): name = 'xiaoshuo_spider' allowed_domains 阅读全文

posted @ 2020-08-10 15:50 kuanleung 阅读(8) 评论(0) 推荐(0) 编辑

爬虫--Scrapy内置设置(22)

摘要：Scrapy内置设置下面给出scrapy提供的常用内置设置列表,你可以在settings.py文件里面修改这些设置，以应用或者禁用这些设置项 BOT_NAME 默认: ‘scrapybot’ Scrapy项目实现的bot的名字。用来构造默认 User-Agent，同时也用来log。当你使用 st 阅读全文

posted @ 2020-08-10 15:50 kuanleung 阅读(3) 评论(0) 推荐(0) 编辑

爬虫--Item Pipeline 介绍（21）

摘要：1. Item Pipeline 介绍当Item 在Spider中被收集之后，就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类，负责接收到item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline,或者被丢弃阅读全文

posted @ 2020-08-10 15:50 kuanleung 阅读(8) 评论(0) 推荐(0) 编辑

爬虫scrapy之四（20）

摘要：1. 数据的提取 1.1 控制台打印 import scrapy class DoubanSpider(scrapy.Spider): name = 'douban' allwed_url = 'douban.com' start_urls = [ 'https://movie.douban.com 阅读全文

posted @ 2020-08-01 10:15 kuanleung 阅读(4) 评论(0) 推荐(0) 编辑

爬虫Scrapy之三（19）

摘要：1 Scrapy提取项目从网页中提取数据，Scrapy 使用基于 XPath 和 CSS 表达式的技术叫做选择器。以下是 XPath 表达式的一些例子：这将选择 HTML 文档中的 <head> 元素中的 <title> 元素 /html/head/title 这将选择 <title> 元素中的阅读全文

posted @ 2020-08-01 10:15 kuanleung 阅读(4) 评论(0) 推荐(0) 编辑

`爬虫scrapy之二（18）

摘要：1 基本使用 1.1 创建项目运行命令: scrapy startproject myfrist（your_project_name）文件说明：名称作用scrapy.cfg项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中阅读全文

posted @ 2020-08-01 10:14 kuanleung 阅读(3) 评论(0) 推荐(0) 编辑

爬虫Scrapy之一（17）

摘要：1. Scrapy 框架介绍 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy = Scrach+Python Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试、信息处理和历史档案等大量应用范围内抽取结构化阅读全文

posted @ 2020-07-16 11:08 kuanleung 阅读(2) 评论(0) 推荐(0) 编辑

爬虫Tesseract（16）

摘要：1. Tesseract介绍 tesseract 是一个google支持的开源ocr项目其项目地址：https://github.com/tesseract-ocr/tesseract 目前最新的源码可以在这里下载 2. Tesseract安装包下载 Tesseract的release版本下载地址阅读全文

posted @ 2020-07-16 11:06 kuanleung 阅读(7) 评论(0) 推荐(0) 编辑

爬虫——Selenium 处理滚动条（15）

摘要：Selenium 处理滚动条 selenium并不是万能的，有时候页面上操作无法实现的，这时候就需要借助JS来完成了当页面上的元素超过一屏后，想操作屏幕下方的元素，是不能直接定位到，会报元素不可见的。这时候需要借助滚动条来拖动屏幕，使被操作的元素显示在当前的屏幕上。滚动条是无法直接用定位工具来定位阅读全文

posted @ 2020-07-16 11:05 kuanleung 阅读(27) 评论(0) 推荐(0) 编辑

爬虫Selenium（14）

摘要：1. Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根阅读全文

posted @ 2020-07-16 11:04 kuanleung 阅读(3) 评论(0) 推荐(0) 编辑

爬虫多线程（13）

摘要：1. 引入我们之前写的爬虫都是单个线程的？这怎么够？一旦一个地方卡到不动了，那不就永远等待下去了？为此我们可以使用多线程或者多进程来处理。不建议你用这个，不过还是介绍下了，如果想看可以看看下面，不想浪费时间直接看 2. 如何使用爬虫使用多线程来处理网络请求，使用线程来处理URL队列中的url，阅读全文

posted @ 2020-07-09 20:37 kuanleung 阅读(3) 评论(0) 推荐(0) 编辑

爬虫pyquery（12）

摘要：1. pyquery 1.1 介绍如果你对CSS选择器与Jquery有有所了解，那么还有个解析库可以适合你–Jquery 官网https://pythonhosted.org/pyquery/ 1.2 安装 pip install pyquery 1.3 使用方式 1.3.1 初始化方式字符串阅读全文

posted @ 2020-07-09 20:35 kuanleung 阅读(4) 评论(0) 推荐(0) 编辑

爬虫JSON（11）

摘要：1. JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 Pyt 阅读全文

posted @ 2020-07-09 20:34 kuanleung 阅读(10) 评论(0) 推荐(0) 编辑

爬虫 XPath（10）

摘要：1. 介绍之前 BeautifulSoup 的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如 lxml，使用的是 Xpath 语法，同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话，可以尝试下 Xpath 官网 http://lxml.de/ 阅读全文

posted @ 2020-07-09 20:33 kuanleung 阅读(4) 评论(0) 推荐(0) 编辑

kuanleung

随笔分类 - 爬虫资料理论

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜