2023 年 7月 24 日随笔档案 - 博客0214

2023年7月24日

摘要： HTML（HyperText Markup Language）是一种用于创建网页的标记语言。HTML文档由一系列的HTML标签构成，每个标签都有自己的意义和用途。HTML标签通常成对出现，由一个开始标签和一个结束标签组成，结束标签的名称前有一个斜杠。例如，``是一个段落标签的开始，``是一个段落标阅读全文

posted @ 2023-07-24 23:06 博客0214 阅读(37) 评论(0) 推荐(0) 编辑

[爬虫]1.1.3 网络爬虫的应用场景

摘要：网络爬虫在各种不同的领域都有广泛的应用。它们可以用来收集，分析，处理和理解大量的在线信息。以下是网络爬虫的一些主要应用场景： ## 1. 搜索引擎搜索引擎，如Google，Bing，和Baidu，是网络爬虫的最主要的应用场景。搜索引擎使用网络爬虫来抓取网页内容，然后对这些内容进行索引并存储在数据库阅读全文

posted @ 2023-07-24 12:54 博客0214 阅读(412) 评论(0) 推荐(0) 编辑

[爬虫]1.1.2 网络爬虫的工作原理

摘要：网络爬虫（Web Crawler），也被称为网页蜘蛛（Spider），是一种用来自动浏览互联网的网络机器人。其主要目标通常是为搜索引擎创建复制的网页内容，但它们也可以被用于其他目的，比如数据挖掘。现在，我们一起来深入理解一下网络爬虫的工作原理。整个过程可以被大致分为四个步骤： 1. 发送HTTP请阅读全文

posted @ 2023-07-24 10:36 博客0214 阅读(178) 评论(0) 推荐(0) 编辑

[爬虫]3.4.1 Scrapy框架的基本使用

摘要： Scrapy是一款强大的Python网络爬虫框架，它可以帮助你快速、简洁地编写爬虫程序，处理数据抓取、处理和存储等复杂问题。 ## 1. 安装Scrapy 在开始使用Scrapy之前，你需要先将其安装在你的系统中。你可以使用Python的包管理器pip来安装Scrapy： ```bash pip i 阅读全文

posted @ 2023-07-24 00:03 博客0214 阅读(272) 评论(0) 推荐(0) 编辑

公告