随笔分类 - 测试高级进阶 - 爬虫
摘要:1.什么是爬虫 爬虫就是爬取网页数据,只要网页上有的,都可以通过爬虫爬取下来,比如图片、文字评论、商品详情等。 一般二言,Python爬虫需要以下几步: 找到网页URL,发起请求,等待服务器响应 获取服务器响应内容 解析内容(正则表达式、xpath、bs4等) 保存数据(本地文件、数据库等) 2.爬
阅读全文
摘要:1.TCP IP分层模型及每层所包含的协议(常见) ? 可以分为5层,如果面试官问你:不是四层吗? 答:数据链路层和物理层是可以合到一起,简称为网络接口层。 应用层 常见的协议有:HTTP、FTP、SSH、DNS等;HTTP:超文本传输协议,比如我们打开网页使用的就是HTTP协议;FTP:文件传输协
阅读全文
摘要:项目背景 master:是控制节点,负责管理所有的slave,进行任务调度、分发、维护爬取队列进行去重,以及新任务的添加;部署在win10上面,安装的数据库为redis5.0 slavr:爬虫端,从master领取任务,并且去完成爬虫任务。具体为数据的抓取、数据的处理、内容的解析以及内容的存储等;部
阅读全文
摘要:1.什么是Scrapy-Redis Scrapy-Redis是scrapy框架基于redis的分布式组件,是scrapy的扩展;分布式爬虫将多台主机组合起来,共同完成一个爬取任务,快速高效地提高爬取效率。 原先scrapy的请求是放在内存中,从内存中获取。scrapy-redisr将请求统一放在re
阅读全文
摘要:背景:瓜子二手车网站制定了一些反爬措施,针对该网站反爬措施,如何爬取我们想要的数据? 前置知识:该项目代码中,引用了urllib的一些方法,对url进行拆分合并,需要了解掌握,可以跳转过去先学习一下:https://blog.csdn.net/liyuanjinglyj/article/detail
阅读全文
摘要:反爬虫 反爬虫:限制爬虫程序访问服务器资源和获取数据的行为 限制手段 请求限制、拒绝响应、客户端身份验证、文本混淆和使用动态渲染技术等 反爬虫的分类 身份识别反爬虫:验证请求头信息、验证请求参数、使用验证码等 爬虫行为反爬虫:对ip进行限制、使用蜜罐获取ip、假数据等 数据加密反爬虫:自定义字体、数
阅读全文
摘要:前置:是接着该篇随笔https://www.cnblogs.com/gltou/p/16400449.html继续完善功能。该篇随笔增加了示例项目下载网站图片的功能 items.py 将原先的图片url变量 pic_url 注释掉,新增图片url变量 image_urls 。注意变量名必须得是这个,
阅读全文
摘要:该篇笔记的代码是接着上一篇文章中的示例项目接着写的,完善我们的土巴兔爬虫项目 伪装爬虫 - user agent中间件的编写 前置知识:user agent 用户代理(User Agent,简称 UA),是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览
阅读全文
摘要:什么是Scrapy 基于Twisted的异步处理框架 纯python实现的爬虫框架 基本结构:5+2框架,5个组件,2个中间件 5个组件: Scrapy Engine:引擎,负责其他部件通信 进行信号和数据传递;负责Scheduler、Downloader、Spiders、Item Pipeline
阅读全文
摘要:基本使用 selenium在爬虫中的应用 获取动态网页中的数据,一些动态的数据我们在获取的源码中并没有显示的之一类动态加载数据 可用于模拟登录 安装selenium pip install selenium 下载浏览器驱动 Chrome浏览器 下载地址:http://chromedriver.sto
阅读全文
摘要:什么是lxml库 lxml是一种使用Python编写的库,可以迅速、灵活地处理XML 支持XPath(XML Path Language) 学习lxml库的目的 利用XPath语法,来快速的定位特定元素以及节点信息 目的是提取出HTML、XML目标的数据 安装lxml库 pip install lx
阅读全文
摘要:什么是Beautiful Soup库 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序 Beautiful Soup就是python的一
阅读全文
摘要:什么是XPath XPath即为XML路径语言(XML Path Language) XPath可以用于定位XML文本的节点 实际上,XPath也适用于定位HTML中的节点 节点及节点间的关系 在HTML中,节点就是一个个HTML标签 分析节点间的关系也就是要清楚HTML文档中各标签间的关系 理清这
阅读全文
摘要:文件、图片读写 方式一 import requests r=requests.get("https://dss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/logo/logo_white-d0c9fe2af5.png") with open(
阅读全文
摘要:7个主要方法 序号 方法 方法表达式 作用 参数 1 request requests.request(method, url, **kwargs) 构造一个请求,支撑以下各方法的基础方法 method :请求方式,对应get/post等 url :网页链接 **kwargs :关键字参数,可选,共
阅读全文
摘要:co
阅读全文
摘要:1.学习前置【必看】 近年来由于抓取数据而引起的纠纷越来越多,有的锒铛入狱,有的被处罚金,本人爬虫笔记学习提醒大家:爬虫有风险,采集需谨慎,写代码不能违法,写代码背后也有法律风险 1.1爬虫注意点 1.1.1遵守Robots协议 Robots协议,也称为爬虫协议、机器人协议等,全称是“网络爬虫排除标
阅读全文