测试高级进阶 - 爬虫 - 随笔分类 - 葛老头

爬虫（17） - 面试(2) | 爬虫面试题库

摘要：1.什么是爬虫爬虫就是爬取网页数据，只要网页上有的，都可以通过爬虫爬取下来，比如图片、文字评论、商品详情等。一般二言，Python爬虫需要以下几步：找到网页URL，发起请求，等待服务器响应获取服务器响应内容解析内容（正则表达式、xpath、bs4等）保存数据（本地文件、数据库等） 2.爬阅读全文

posted @ 2022-07-07 09:34 葛老头阅读(881) 评论(0) 推荐(1)

爬虫（16） - 面试(1) | 爬虫高频面试题

摘要：1.TCP IP分层模型及每层所包含的协议(常见) ？可以分为5层，如果面试官问你：不是四层吗？答：数据链路层和物理层是可以合到一起，简称为网络接口层。应用层常见的协议有：HTTP、FTP、SSH、DNS等；HTTP：超文本传输协议，比如我们打开网页使用的就是HTTP协议；FTP：文件传输协阅读全文

posted @ 2022-07-07 08:59 葛老头阅读(1938) 评论(0) 推荐(1)

爬虫（15） - Scrapy-Redis分布式爬虫(2) | 实例：分布式爬虫项目

摘要：项目背景 master：是控制节点，负责管理所有的slave，进行任务调度、分发、维护爬取队列进行去重，以及新任务的添加；部署在win10上面，安装的数据库为redis5.0 slavr：爬虫端，从master领取任务，并且去完成爬虫任务。具体为数据的抓取、数据的处理、内容的解析以及内容的存储等；部阅读全文

posted @ 2022-07-07 08:57 葛老头阅读(1160) 评论(0) 推荐(0)

爬虫（14） - Scrapy-Redis分布式爬虫(1) | 详解

摘要：1.什么是Scrapy-Redis Scrapy-Redis是scrapy框架基于redis的分布式组件，是scrapy的扩展；分布式爬虫将多台主机组合起来，共同完成一个爬取任务，快速高效地提高爬取效率。原先scrapy的请求是放在内存中，从内存中获取。scrapy-redisr将请求统一放在re 阅读全文

posted @ 2022-07-06 11:24 葛老头阅读(4856) 评论(0) 推荐(2)

爬虫（13） - 反爬虫(2) | 项目示例-爬取瓜子二手车网站数据

摘要：背景：瓜子二手车网站制定了一些反爬措施，针对该网站反爬措施，如何爬取我们想要的数据？前置知识：该项目代码中，引用了urllib的一些方法，对url进行拆分合并，需要了解掌握，可以跳转过去先学习一下：https://blog.csdn.net/liyuanjinglyj/article/detail 阅读全文

posted @ 2022-07-06 11:22 葛老头阅读(2565) 评论(4) 推荐(0)

爬虫（12） - 反爬虫(1) | 详解

摘要：反爬虫反爬虫：限制爬虫程序访问服务器资源和获取数据的行为限制手段请求限制、拒绝响应、客户端身份验证、文本混淆和使用动态渲染技术等反爬虫的分类身份识别反爬虫：验证请求头信息、验证请求参数、使用验证码等爬虫行为反爬虫：对ip进行限制、使用蜜罐获取ip、假数据等数据加密反爬虫：自定义字体、数阅读全文

posted @ 2022-07-06 10:08 葛老头阅读(1129) 评论(0) 推荐(0)

爬虫（11） - Scrapy框架(3) | 示例项目抓取并下载网站图片

摘要：前置：是接着该篇随笔https://www.cnblogs.com/gltou/p/16400449.html继续完善功能。该篇随笔增加了示例项目下载网站图片的功能 items.py 将原先的图片url变量 pic_url 注释掉，新增图片url变量 image_urls 。注意变量名必须得是这个，阅读全文

posted @ 2022-07-06 10:05 葛老头阅读(314) 评论(0) 推荐(0)

爬虫（10） - Scrapy框架(2) | 伪装爬虫

摘要：该篇笔记的代码是接着上一篇文章中的示例项目接着写的，完善我们的土巴兔爬虫项目伪装爬虫 - user agent中间件的编写前置知识：user agent 用户代理（User Agent，简称 UA），是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览阅读全文

posted @ 2022-07-06 10:04 葛老头阅读(269) 评论(0) 推荐(0)

爬虫（9） - Scrapy框架(1) | Scrapy 异步网络爬虫框架

摘要：什么是Scrapy 基于Twisted的异步处理框架纯python实现的爬虫框架基本结构：5+2框架，5个组件，2个中间件 5个组件： Scrapy Engine：引擎，负责其他部件通信进行信号和数据传递；负责Scheduler、Downloader、Spiders、Item Pipeline 阅读全文

posted @ 2022-07-05 09:56 葛老头阅读(1342) 评论(0) 推荐(0)

爬虫（8） - 可视化爬虫框架Selenium

摘要：基本使用 selenium在爬虫中的应用获取动态网页中的数据，一些动态的数据我们在获取的源码中并没有显示的之一类动态加载数据可用于模拟登录安装selenium pip install selenium 下载浏览器驱动 Chrome浏览器下载地址：http://chromedriver.sto 阅读全文

posted @ 2022-07-04 20:20 葛老头阅读(306) 评论(0) 推荐(0)

爬虫（7） - 网页数据解析(3) | lxml解析数据

摘要：什么是lxml库 lxml是一种使用Python编写的库，可以迅速、灵活地处理XML 支持XPath(XML Path Language) 学习lxml库的目的利用XPath语法，来快速的定位特定元素以及节点信息目的是提取出HTML、XML目标的数据安装lxml库 pip install lx 阅读全文

posted @ 2022-07-04 20:19 葛老头阅读(390) 评论(0) 推荐(0)

爬虫（6） - 网页数据解析(2) | BeautifulSoup4在爬虫中的使用

摘要：什么是Beautiful Soup库 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序 Beautiful Soup就是python的一阅读全文

posted @ 2022-07-04 16:27 葛老头阅读(775) 评论(0) 推荐(1)

爬虫（5） - 网页数据解析(1) | XPath在爬虫中的应用

摘要：什么是XPath XPath即为XML路径语言(XML Path Language) XPath可以用于定位XML文本的节点实际上，XPath也适用于定位HTML中的节点节点及节点间的关系在HTML中，节点就是一个个HTML标签分析节点间的关系也就是要清楚HTML文档中各标签间的关系理清这阅读全文

posted @ 2022-07-04 16:25 葛老头阅读(287) 评论(0) 推荐(0)

爬虫（4） - Requests(3) | Requests常用场景方法

摘要：文件、图片读写方式一 import requests r=requests.get("https://dss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/logo/logo_white-d0c9fe2af5.png") with open( 阅读全文

posted @ 2022-07-01 08:56 葛老头阅读(138) 评论(0) 推荐(0)

爬虫（3） - Requests(2) | Requests模块的方法、关键字和响应对象属性总结

摘要：7个主要方法序号方法方法表达式作用参数 1 request requests.request(method, url, **kwargs) 构造一个请求，支撑以下各方法的基础方法 method ：请求方式，对应get/post等 url ：网页链接 **kwargs ：关键字参数，可选，共阅读全文

posted @ 2022-07-01 08:55 葛老头阅读(249) 评论(0) 推荐(0)

爬虫（2） - Requests(1) | Requests模块的深度解析

摘要：co 阅读全文

posted @ 2022-07-01 08:44 葛老头阅读(640) 评论(0) 推荐(0)

爬虫（1） - 爬虫基础入门理论篇

摘要：1.学习前置【必看】近年来由于抓取数据而引起的纠纷越来越多，有的锒铛入狱，有的被处罚金，本人爬虫笔记学习提醒大家：爬虫有风险，采集需谨慎，写代码不能违法，写代码背后也有法律风险 1.1爬虫注意点 1.1.1遵守Robots协议 Robots协议，也称为爬虫协议、机器人协议等，全称是“网络爬虫排除标阅读全文

posted @ 2022-06-30 13:50 葛老头阅读(1858) 评论(5) 推荐(4)

葛老头

随笔分类 - 测试高级进阶 - 爬虫

公告