Shadow_Y - 博客园

2018年9月11日

该文被密码保护。阅读全文

posted @ 2018-09-11 15:55 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

该文被密码保护。阅读全文

posted @ 2018-09-11 15:54 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

摘要：上一章中，我们实现了一个最基本的爬虫，但提取页面信息时使用的是正则表达式，这还是比较烦琐，而且万一有地方写错了，可能导致匹配失败，所以使用正则表达式提取页面信息多多少少还是有些不方便。对于网页的节点来说，它可以定义id、class或其他属性。而且节点之间还有层次关系，在网页中可以通过XPath或C 阅读全文

posted @ 2018-09-11 15:53 Shadow_Y 阅读(194) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 4.1-使用XPath

摘要： XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在做爬虫时，我们完全可以使用XPath来做相应的信息抽取。本节中，我们就来介绍XPath的基本用法。 1. XPath概阅读全文

posted @ 2018-09-11 15:53 Shadow_Y 阅读(758) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.4-抓取猫眼电影排行

该文被密码保护。阅读全文

posted @ 2018-09-11 15:52 Shadow_Y 阅读(0) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.3-正则表达式

摘要：本节中，我们看一下正则表达式的相关用法。正则表达式是处理字符串的强大工具，它有自己特定的语法结构，有了它，实现字符串的检索、替换、匹配验证都不在话下。当然，对于爬虫来说，有了它，从HTML里提取想要的信息就非常方便了。 1. 实例引入说了这么多，可能我们对它到底是个什么还是比较模糊，下面就用几个阅读全文

posted @ 2018-09-11 15:52 Shadow_Y 阅读(555) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.2.2-高级用法

摘要：在前一节中，我们了解了requests的基本用法，如基本的GET、POST请求以及Response对象。本节中，我们再来了解下requests的一些高级用法，如文件上传、cookie设置、代理设置等。 1. 文件上传我们知道requests可以模拟提交一些数据。假如有的网站需要上传文件，我们也可以阅读全文

posted @ 2018-09-11 15:51 Shadow_Y 阅读(458) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.2.1-基本用法

摘要： 1. 准备工作在开始之前，请确保已经正确安装好了requests库。如果没有安装，可以参考1.2.1节安装。 2. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页，而requests中相应的方法就是get()方法，是不是感觉表达更明确一些？下面通过实例来看一下： 1 阅读全文

posted @ 2018-09-11 15:50 Shadow_Y 阅读(473) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.1.4-分析Robots协议

摘要：利用urllib的robotparser模块，我们可以实现网站Robots协议的分析。本节中，我们来简单了解一下该模块的用法。 1. Robots协议 Robots协议也称作爬虫协议、机器人协议，它的全名叫作网络爬虫排除标准（Robots Exclusion Protocol），用来告诉爬虫和搜索引阅读全文

posted @ 2018-09-11 15:49 Shadow_Y 阅读(501) 评论(0) 推荐(0) 编辑

[Python3网络爬虫开发实战] 3.1.3-解析链接

摘要：前面说过，urllib库里还提供了parse这个模块，它定义了处理URL的标准接口，例如实现URL各部分的抽取、合并以及链接转换。它支持如下协议的URL处理：file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsyn 阅读全文

posted @ 2018-09-11 15:47 Shadow_Y 阅读(321) 评论(0) 推荐(0) 编辑

Palace_Y

最怕你一生碌碌无为，还安慰自己平凡可贵......

公告