博客0214 - 博客园

2023年7月26日

摘要： Python提供了许多内置库来处理文件系统，如`os`、`shutil`和`pathlib`等，这些库可以帮助你创建、删除、读取、写入文件和目录。 ## 读取文件在Python中，你可以使用内置的`open`函数来打开一个文件。`open`函数返回一个文件对象，你可以对这个对象进行各种操作。以下阅读全文

posted @ 2023-07-26 12:21 博客0214 阅读(52) 评论(0) 推荐(0)

【go语言】1.2.1 Go 环境安装

摘要： Go 语言的安装过程非常简单，无论你使用的是哪种操作系统，都可以按照下面的步骤来进行。 ### Windows 系统 1. 前往 Go 语言的官方下载页面：[https://golang.org/dl/ ↗](https://golang.org/dl/) 2. 根据你的操作系统版本选择对应的安装包阅读全文

posted @ 2023-07-26 08:50 博客0214 阅读(4003) 评论(0) 推荐(0)

2023年7月25日

[爬虫]2.2.2 使用PhantomJS处理JavaScript

摘要： PhantomJS是一个无头（headless）浏览器，它可以解析和执行JavaScript，非常适合用于爬取动态网页。"无头"意味着它可以在没有用户界面的情况下运行，这对于服务器环境和自动化任务非常有用。 ## 安装PhantomJS 首先，你需要下载并安装PhantomJS。你可以从官方网站[下阅读全文

posted @ 2023-07-25 22:32 博客0214 阅读(276) 评论(0) 推荐(0)

[爬虫]1.2.2 CSS选择器

摘要： CSS (Cascading Style Sheets) 是一种样式表语言，用于描述HTML元素的样式。CSS选择器是CSS规则的一部分，它决定了CSS规则应用于哪些元素。在网络爬虫的开发中，我们经常使用CSS选择器来定位和选取HTML元素。以下是一些常见的CSS选择器： ## 1. 元素选择器阅读全文

posted @ 2023-07-25 13:49 博客0214 阅读(108) 评论(0) 推荐(0)

【go语言】1.1.1 Go 语言的历史和背景

摘要： Go 语言，也被称为 Golang，是一种静态强类型、编译型的开源编程语言。Go 语言的出现是为了解决当下的软件开发问题，特别是大规模软件系统的开发。 Go 语言的设计者包括 Robert Griesemer、Rob Pike 和 Ken Thompson，他们都是在 Google 工作的资深工程师阅读全文

posted @ 2023-07-25 08:41 博客0214 阅读(183) 评论(0) 推荐(0)

2023年7月24日

[爬虫]1.2.1 HTML标签和属性

摘要： HTML（HyperText Markup Language）是一种用于创建网页的标记语言。HTML文档由一系列的HTML标签构成，每个标签都有自己的意义和用途。HTML标签通常成对出现，由一个开始标签和一个结束标签组成，结束标签的名称前有一个斜杠。例如，``是一个段落标签的开始，``是一个段落标阅读全文

posted @ 2023-07-24 23:06 博客0214 阅读(74) 评论(0) 推荐(0)

[爬虫]1.1.3 网络爬虫的应用场景

摘要：网络爬虫在各种不同的领域都有广泛的应用。它们可以用来收集，分析，处理和理解大量的在线信息。以下是网络爬虫的一些主要应用场景： ## 1. 搜索引擎搜索引擎，如Google，Bing，和Baidu，是网络爬虫的最主要的应用场景。搜索引擎使用网络爬虫来抓取网页内容，然后对这些内容进行索引并存储在数据库阅读全文

posted @ 2023-07-24 12:54 博客0214 阅读(792) 评论(0) 推荐(0)

[爬虫]1.1.2 网络爬虫的工作原理

摘要：网络爬虫（Web Crawler），也被称为网页蜘蛛（Spider），是一种用来自动浏览互联网的网络机器人。其主要目标通常是为搜索引擎创建复制的网页内容，但它们也可以被用于其他目的，比如数据挖掘。现在，我们一起来深入理解一下网络爬虫的工作原理。整个过程可以被大致分为四个步骤： 1. 发送HTTP请阅读全文

posted @ 2023-07-24 10:36 博客0214 阅读(417) 评论(0) 推荐(0)

[爬虫]3.4.1 Scrapy框架的基本使用

摘要： Scrapy是一款强大的Python网络爬虫框架，它可以帮助你快速、简洁地编写爬虫程序，处理数据抓取、处理和存储等复杂问题。 ## 1. 安装Scrapy 在开始使用Scrapy之前，你需要先将其安装在你的系统中。你可以使用Python的包管理器pip来安装Scrapy： ```bash pip i 阅读全文

posted @ 2023-07-24 00:03 博客0214 阅读(450) 评论(0) 推荐(0)

2023年7月23日

[爬虫]3.2.2 分布式爬虫的架构

摘要：在分布式爬虫系统中，通常包括以下几个主要的组成部分：调度器、爬取节点、存储节点。我们接下来将详细介绍每一个部分的功能和设计方法。 ## 1. 调度器（Scheduler）调度器是分布式爬虫系统中的核心，它负责管理和分发爬取任务。调度器通常需要处理以下功能： - **URL管理**：调度器需要管理一阅读全文

posted @ 2023-07-23 13:56 博客0214 阅读(415) 评论(0) 推荐(0)

公告