上一页 1 2 3 4 5 6 7 ··· 35 下一页
摘要: 背景:瓜子二手车网站制定了一些反爬措施,针对该网站反爬措施,如何爬取我们想要的数据? 前置知识:该项目代码中,引用了urllib的一些方法,对url进行拆分合并,需要了解掌握,可以跳转过去先学习一下:https://blog.csdn.net/liyuanjinglyj/article/detail 阅读全文
posted @ 2022-07-06 11:22 葛老头 阅读(1927) 评论(4) 推荐(0) 编辑
摘要: 反爬虫 反爬虫:限制爬虫程序访问服务器资源和获取数据的行为 限制手段 请求限制、拒绝响应、客户端身份验证、文本混淆和使用动态渲染技术等 反爬虫的分类 身份识别反爬虫:验证请求头信息、验证请求参数、使用验证码等 爬虫行为反爬虫:对ip进行限制、使用蜜罐获取ip、假数据等 数据加密反爬虫:自定义字体、数 阅读全文
posted @ 2022-07-06 10:08 葛老头 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 前置:是接着该篇随笔https://www.cnblogs.com/gltou/p/16400449.html继续完善功能。该篇随笔增加了示例项目下载网站图片的功能 items.py 将原先的图片url变量 pic_url 注释掉,新增图片url变量 image_urls 。注意变量名必须得是这个, 阅读全文
posted @ 2022-07-06 10:05 葛老头 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 该篇笔记的代码是接着上一篇文章中的示例项目接着写的,完善我们的土巴兔爬虫项目 伪装爬虫 - user agent中间件的编写 前置知识:user agent 用户代理(User Agent,简称 UA),是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览 阅读全文
posted @ 2022-07-06 10:04 葛老头 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 什么是Scrapy 基于Twisted的异步处理框架 纯python实现的爬虫框架 基本结构:5+2框架,5个组件,2个中间件 5个组件: Scrapy Engine:引擎,负责其他部件通信 进行信号和数据传递;负责Scheduler、Downloader、Spiders、Item Pipeline 阅读全文
posted @ 2022-07-05 09:56 葛老头 阅读(964) 评论(0) 推荐(0) 编辑
摘要: 基本使用 selenium在爬虫中的应用 获取动态网页中的数据,一些动态的数据我们在获取的源码中并没有显示的之一类动态加载数据 可用于模拟登录 安装selenium pip install selenium 下载浏览器驱动 Chrome浏览器 下载地址:http://chromedriver.sto 阅读全文
posted @ 2022-07-04 20:20 葛老头 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 什么是lxml库 lxml是一种使用Python编写的库,可以迅速、灵活地处理XML 支持XPath(XML Path Language) 学习lxml库的目的 利用XPath语法,来快速的定位特定元素以及节点信息 目的是提取出HTML、XML目标的数据 安装lxml库 pip install lx 阅读全文
posted @ 2022-07-04 20:19 葛老头 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 什么是Beautiful Soup库 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序 Beautiful Soup就是python的一 阅读全文
posted @ 2022-07-04 16:27 葛老头 阅读(637) 评论(0) 推荐(1) 编辑
摘要: 什么是XPath XPath即为XML路径语言(XML Path Language) XPath可以用于定位XML文本的节点 实际上,XPath也适用于定位HTML中的节点 节点及节点间的关系 在HTML中,节点就是一个个HTML标签 分析节点间的关系也就是要清楚HTML文档中各标签间的关系 理清这 阅读全文
posted @ 2022-07-04 16:25 葛老头 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 背景:我在写分布式爬虫项目时遇到了slave端无法ping通我的master,我的master可以ping通slave。我将master的防火墙关闭后slave可以ping了,但是这不是解决办法。于是百度一圈,论坛一圈,有用的信息有,但是不能直接解决我的问题。在此记录下本次事故的解决方案 网络和共享 阅读全文
posted @ 2022-07-01 16:59 葛老头 阅读(2786) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 35 下一页