摘要: 本节编写一个最简单的爬虫程序,作为学习 Python 爬虫前的开胃小菜。 下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意,urllib 库属于 Python 的标准库模块,无须单独安装,它是 Python 爬虫的常用模块。 获取网页html信息 1) 获取响应对象 阅读全文
posted @ 2021-09-05 21:06 RioTian 阅读(656) 评论(0) 推荐(0) 编辑
摘要: 爬虫程序之所以可以抓取数据,是因为爬虫能够对网页进行分析,并在网页中提取出想要的数据。在学习 Python 爬虫模块前,我们有必要先熟悉网页的基本结构,这是编写爬虫程序的必备知识。 网页的基本结构 关于 Web 初步教程:Here 网页在组成上一般由三部分组成,分别是 HTML(超文本标记语言)负责 阅读全文
posted @ 2021-09-05 14:53 RioTian 阅读(665) 评论(0) 推荐(0) 编辑
摘要: 本系列基于 C语言中文网的 Python爬虫教程(从入门到精通)来进行学习的, 部分转载的文章内容仅作学习使用! 前言 网络爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取 阅读全文
posted @ 2021-09-05 13:53 RioTian 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 比赛链接:Here ABC水题, D - Cutting Woods 题意:开始一根木棒长度为 \(n\) 并以 \(1\) 为单位在木棒上标记$(1\sim n)$ ,输出 \(q\) 次操作 操作 \(1\) 断开 \(x\) 所在的木棒:\([1,n]\) 在 \(x\) 断开变成了 \([1 阅读全文
posted @ 2021-09-05 10:48 RioTian 阅读(58) 评论(0) 推荐(0) 编辑