随笔分类 - 爬虫
摘要:import scrapy import json class TestpostSpider(scrapy.Spider): name = 'testpost' allowed_domains = ['https://fanyi.baidu.com/sug'] # post请求 如果没有参数 那么这
阅读全文
摘要:(1)日志级别: CRITICAL:严重错误 ERROR: 一般错误 WARNING: 警告 INFO: 一般信息 DEBUG: 调试信息 默认的日志等级是DEBUG 只要出现了DEBUG或者DEBUG以上等级的日志 那么这些日志将会打印 (2)settings.py文件设置: 默认的级别为DEBU
阅读全文
摘要:CrawlSider: 1.继承自scrapy.Spider 2.独门秘笈 CrawlSpider可以定义规则,再解析html内容的时候,可以根据链接规则提取出指定的链接,然后再向这些链接发 送请求 所以,如果有需要跟进链接的需求,意思就是爬取了网页之后,需要提取链接再次爬取,使用CrawlSpid
阅读全文
摘要:设计多个页面的时候,要用到meta参数 获取第一页的链接,第二页的图片。 import scrapy from scrapy_movie_099.items import ScrapyMovie099Item class MvSpider(scrapy.Spider): name = 'mv' al
阅读全文
摘要:yield 开启多管道在setting.py中新开一个管道 ,pipelines 下写详细,注意url地址。 当当网爬取案例 import scrapy from scrapy_dangdang_095.items import ScrapyDangdang095Item class DangSpi
阅读全文
摘要:scrapy shell : Scrapy终端,是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。 该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取
阅读全文
摘要:汽车之间案例: import scrapy class CarSpider(scrapy.Spider): name = 'car' allowed_domains = ['https://car.autohome.com.cn/price/brand-15.html'] # 注意如果你的请求的接口
阅读全文
摘要:scrapy项目结构:. 1. scrapy项目的结构 项目名字 项目名字 spiders文件夹 (存储的是爬虫文件) init 自定义的爬虫文件 核心功能文件 **************** init items 定义数据结构的地方 爬取的数据都包含哪些 middleware 中间件 代理 pi
阅读全文
摘要:介绍: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理 或存储历史数据等一系列的程序中。 安装教程 # (1) pip install scrapy # (2) 报错1: building 'twisted.test.raiser' exten
阅读全文
摘要:解决反爬,隐藏域: 首先随便登陆一下,找登录接口。观察参数 有两个参数在源码中,然后用bs/xpath 获取数值 # 通过登陆 然后进入到主页面 # 通过找登陆接口我们发现 登陆的时候需要的参数很多 # _VIEWSTATE: /m1O5dxmOo7f1qlmvtnyNyhhaUrWNVTs3TMK
阅读全文
摘要:requests和urllib功能一样,优点更多。 基本使用: import requests url = 'http://www.baidu.com' response = requests.get(url=url) # 一个类型和六个属性 # Response类型 # print(type(re
阅读全文
摘要:Phantomjs和Chrome handless 都是基于Selenium运行的,无界面游览器,推荐使用Chrome handless Phantomjs基本使用:(这里会出错,因为已经停止使用,可以下载旧版Selenium) from selenium import webdriver path
阅读全文
摘要:Selenium介绍:Selenium访问游览器可以像真正的用户一样在访问,确认且支持无界面游览器操作。’ Selenium基本使用 直接访问京东的话,会有一些资源被屏蔽,依靠selenium工具 # (1)导入selenium from selenium import webdriver # (2
阅读全文
摘要:bs4的基本使用 本地文件 from bs4 import BeautifulSoup # 通过解析本地文件 来将bs4的基础语法进行讲解 # 默认打开的文件的编码格式是gbk 所以在打开文件的时候需要指定编码 soup = BeautifulSoup(open('075_尚硅谷_爬虫_解析_bs4
阅读全文
摘要:JsonPath只能解析本地文件。 import json import jsonpath obj = json.load(open('073_尚硅谷_爬虫_解析_jsonpath.json','r',encoding='utf-8')) # 书店所有书的作者 # author_list = jso
阅读全文
摘要:首先在游览器中添加xpath扩展 再安装lxml,我用的Anaconda 的python虚拟环境,所以 https://zhuanlan.zhihu.com/p/366015720 可以采用链接中的方式来安装包,也可以可视化的去安装包 xpath 本地文件的基本使用,xpath返回的是列表数据 fr
阅读全文
摘要:当有红框中的内容时,就是ajax请求 urllib 异常 import urllib.request import urllib.error # url = 'https://blog.csdn.net/sulixu/article/details/1198189491' url = 'http:/
阅读全文
摘要:请求对象的定制(user-Agent反爬解决办法) import urllib.request url = 'https://www.baidu.com' # url的组成 # https://www.baidu.com/s?wd=周杰伦 # http/https www.baidu.com 80/
阅读全文
摘要:今天开始跟着尚硅谷学习爬虫,部分资源来自尚硅谷 爬虫 1、通用爬虫:通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 2、聚焦爬虫: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证
阅读全文