葛老头

2022年7月6日

摘要：背景：瓜子二手车网站制定了一些反爬措施，针对该网站反爬措施，如何爬取我们想要的数据？前置知识：该项目代码中，引用了urllib的一些方法，对url进行拆分合并，需要了解掌握，可以跳转过去先学习一下：https://blog.csdn.net/liyuanjinglyj/article/detail 阅读全文

posted @ 2022-07-06 11:22 葛老头阅读(2575) 评论(4) 推荐(0)

爬虫（12） - 反爬虫(1) | 详解

摘要：反爬虫反爬虫：限制爬虫程序访问服务器资源和获取数据的行为限制手段请求限制、拒绝响应、客户端身份验证、文本混淆和使用动态渲染技术等反爬虫的分类身份识别反爬虫：验证请求头信息、验证请求参数、使用验证码等爬虫行为反爬虫：对ip进行限制、使用蜜罐获取ip、假数据等数据加密反爬虫：自定义字体、数阅读全文

posted @ 2022-07-06 10:08 葛老头阅读(1140) 评论(0) 推荐(0)

爬虫（11） - Scrapy框架(3) | 示例项目抓取并下载网站图片

摘要：前置：是接着该篇随笔https://www.cnblogs.com/gltou/p/16400449.html继续完善功能。该篇随笔增加了示例项目下载网站图片的功能 items.py 将原先的图片url变量 pic_url 注释掉，新增图片url变量 image_urls 。注意变量名必须得是这个，阅读全文

posted @ 2022-07-06 10:05 葛老头阅读(317) 评论(0) 推荐(0)

爬虫（10） - Scrapy框架(2) | 伪装爬虫

摘要：该篇笔记的代码是接着上一篇文章中的示例项目接着写的，完善我们的土巴兔爬虫项目伪装爬虫 - user agent中间件的编写前置知识：user agent 用户代理（User Agent，简称 UA），是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览阅读全文

posted @ 2022-07-06 10:04 葛老头阅读(273) 评论(0) 推荐(0)

2022年7月5日

爬虫（9） - Scrapy框架(1) | Scrapy 异步网络爬虫框架

摘要：什么是Scrapy 基于Twisted的异步处理框架纯python实现的爬虫框架基本结构：5+2框架，5个组件，2个中间件 5个组件： Scrapy Engine：引擎，负责其他部件通信进行信号和数据传递；负责Scheduler、Downloader、Spiders、Item Pipeline 阅读全文

posted @ 2022-07-05 09:56 葛老头阅读(1345) 评论(0) 推荐(0)

2022年7月4日

爬虫（8） - 可视化爬虫框架Selenium

摘要：基本使用 selenium在爬虫中的应用获取动态网页中的数据，一些动态的数据我们在获取的源码中并没有显示的之一类动态加载数据可用于模拟登录安装selenium pip install selenium 下载浏览器驱动 Chrome浏览器下载地址：http://chromedriver.sto 阅读全文

posted @ 2022-07-04 20:20 葛老头阅读(308) 评论(0) 推荐(0)

爬虫（7） - 网页数据解析(3) | lxml解析数据

摘要：什么是lxml库 lxml是一种使用Python编写的库，可以迅速、灵活地处理XML 支持XPath(XML Path Language) 学习lxml库的目的利用XPath语法，来快速的定位特定元素以及节点信息目的是提取出HTML、XML目标的数据安装lxml库 pip install lx 阅读全文

posted @ 2022-07-04 20:19 葛老头阅读(390) 评论(0) 推荐(0)

爬虫（6） - 网页数据解析(2) | BeautifulSoup4在爬虫中的使用

摘要：什么是Beautiful Soup库 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序 Beautiful Soup就是python的一阅读全文

posted @ 2022-07-04 16:27 葛老头阅读(780) 评论(0) 推荐(1)

爬虫（5） - 网页数据解析(1) | XPath在爬虫中的应用

摘要：什么是XPath XPath即为XML路径语言(XML Path Language) XPath可以用于定位XML文本的节点实际上，XPath也适用于定位HTML中的节点节点及节点间的关系在HTML中，节点就是一个个HTML标签分析节点间的关系也就是要清楚HTML文档中各标签间的关系理清这阅读全文

posted @ 2022-07-04 16:25 葛老头阅读(291) 评论(0) 推荐(0)

2022年7月1日

解决方案:可以ping别人,但是别人不能ping我

摘要：背景：我在写分布式爬虫项目时遇到了slave端无法ping通我的master，我的master可以ping通slave。我将master的防火墙关闭后slave可以ping了，但是这不是解决办法。于是百度一圈，论坛一圈，有用的信息有，但是不能直接解决我的问题。在此记录下本次事故的解决方案网络和共享阅读全文

posted @ 2022-07-01 16:59 葛老头阅读(3054) 评论(0) 推荐(0)

公告