摘要: Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 架构介绍 Scrapy 框架的架构,可以分为如下的几个部分。 Engine,引擎,用 阅读全文
posted @ 2024-08-01 16:26 JJJhr 阅读(1) 评论(0) 推荐(0) 编辑
摘要: http://www.kxdaili.com/dailiip.htmlhttps://www.zdaye.com/Free/http://www.xsdaili.cn/dltq.htmlhttp://http.taiyangruanjian.com/free/https://ip.ihuan.me/ 阅读全文
posted @ 2024-07-23 09:22 JJJhr 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 准备工作 需要先获取一个可用代理,代理就是 IP 地址和端口的组合,就是 <ip>:<port> 这样的格式。如果代理需要访问认证,那就还需要额外的用户名密码两个信息。 那怎么获取一个可用代理呢? 使用搜索引擎搜索 “代理” 关键字,可以看到许多代理服务网站,网站上会有很多免费或付费代理,比如快代理 阅读全文
posted @ 2024-07-12 01:53 JJJhr 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如 403 Forbidden,这时打开网页一看,可能会看到 “您的 IP 访问频率太高” 这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某 阅读全文
posted @ 2024-07-12 00:47 JJJhr 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 随着大数据时代的发展,各个公司的数据保护意识越来越强,大家都在想尽办法保护自家产品的数据不轻易被爬虫爬走。由于网页是提供信息和服务的重要载体,所以对网页上的信息进行保护就成了至关重要的一个环节。 网页是运行在浏览器端的,当浏览一个网页时,其 HTML 代码、 JavaScript 代码都会被下载到浏 阅读全文
posted @ 2024-07-11 19:45 JJJhr 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 结构体(Struct)和方法(Method)是 Go 语言中非常重要的概念,用于定义自定义类型和该类型的行为。让我们来看一下结构体和方法在 Go 中的基本用法和示例。 结构体(Struct) 结构体是一种用户自定义的数据类型,用于封装多个不同类型的数据字段。在结构体中,这些字段被称为结构体的成员(F 阅读全文
posted @ 2024-07-09 02:31 JJJhr 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 字符和字符串处理是编程中非常常见的任务。不同的编程语言提供了各种内置函数和方法来处理字符和字符串。在 Go 语言中,字符串处理有其独特的方式。以下是一些常见的字符和字符串处理操作及其示例: 1. 字符串创建与初始化 package main import "fmt" func main() { // 阅读全文
posted @ 2024-07-09 02:01 JJJhr 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 下面是 Go 语言实现寻找最长不含有重复字符的子串的代码: 滑动区间算法?? package main import "fmt" func longestSubstringWithoutRepeating(s string) string { m := make(map[byte]int) star 阅读全文
posted @ 2024-07-09 02:00 JJJhr 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 在 Go 语言中,map 是一种内置的数据结构,用于存储键值对。map 提供了高效的键值对查询、插入和删除操作。下面是详细介绍 map 的使用方法及注意事项。 1. 创建和初始化 map 使用 make 函数创建 可以使用 make 函数创建一个指定类型的 map。 package main imp 阅读全文
posted @ 2024-07-09 00:54 JJJhr 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 在 Go 语言中,切片(slice)提供了许多强大的操作,可以帮助开发者灵活地处理数据。下面是一些常见的切片操作及其示例: 1. 创建和初始化切片 使用字面量初始化 package main import "fmt" func main() { slice := []int{1, 2, 3, 4, 阅读全文
posted @ 2024-07-08 23:48 JJJhr 阅读(4) 评论(0) 推荐(0) 编辑