上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 21 下一页
摘要: 1. 参考 Beautiful Soup 4.2.0 文档 Beautiful Soup Documentation (4.4.0 英文部分内容有别于4.2.0中文) CSS 选择器参考手册 阮一峰 CSS选择器笔记 2. 安装 pip install beautifulsoup4pip insta 阅读全文
posted @ 2020-05-13 17:33 lincappu 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 对于请求一些网站,我们需要加上请求头才可以完成网页的抓取,不然会得到一些错误,无法返回抓取的网页。下面,介绍两种添加请求头的方法。 方法一:借助build_opener和addheaders完成 1 import urllib.request 2 url="http://www.meizitu.co 阅读全文
posted @ 2020-05-13 17:07 lincappu 阅读(4486) 评论(0) 推荐(0) 编辑
摘要: 一、正则表达式 re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配,提取自己需要的字符串部分,他对所有的语言都通用。注意: re模块是python独有的 正则表达式所有编程语言都可以使用 re模块、正则表达式是对字符串进行操 阅读全文
posted @ 2020-05-09 14:02 lincappu 阅读(472) 评论(0) 推荐(0) 编辑
摘要: Urllib3是一个功能强大,条理清晰,用于HTTP客户端的Python库,许多Python的原生系统已经开始使用urllib3。Urllib3提供了很多python标准库里所没有的重要特性: 1、 线程安全 2、 连接池 3、 客户端SSL/TLS验证 4、 文件分部编码上传 5、 协助处理重复请 阅读全文
posted @ 2020-04-29 14:02 lincappu 阅读(33736) 评论(1) 推荐(2) 编辑
摘要: 阅读目录 1、io概叙 2、io类层次结构 3、IO基类 4、文本IO 5、二进制IO 6、原始IO 回到顶部 1、io概叙 io模块提供了python用于处理各种类型I/O的主要工具,主要有三种类型的I/O:文本I/O,二进制I/O和原始I/O;这些都是通用类型,各种后备存储可使用其中的每一种类型 阅读全文
posted @ 2020-04-29 13:06 lincappu 阅读(1003) 评论(0) 推荐(0) 编辑
摘要: 文章目录一、什么是XPath?二、xpath helper插件三、xpath helper安装使用方法四、XPath语法4.1 节点语法4.2 节点实例4.3 谓语(Predicates)4.4 选取未知节点4.5 选取若干路径五、XPath 轴5.1 轴常用语法5.2 位置路径表达式5.3 步(s 阅读全文
posted @ 2020-04-27 15:54 lincappu 阅读(1398) 评论(0) 推荐(0) 编辑
摘要: 阅读目录 1、python库lxml的安装 2、XPath常用规则 (1)读取文本解析节点 (2)读取HTML文件进行解析 (3)获取所有节点 (4)获取子节点 (5)获取父节点 (6)属性匹配 (7)文本获取 (8)属性获取 (9)属性多值匹配 (10)多属性匹配 (11)XPath中的运算符 ( 阅读全文
posted @ 2020-04-27 15:52 lincappu 阅读(707) 评论(0) 推荐(0) 编辑
摘要: 在上一篇文章中,我们大概讲了一下urllib库中最重要的两个请求方法:urlopen() 和 Request(),但是仅仅凭借那两个方法无法执行一些更高级的请求,如Cookies处理,代理设置等等。 这是就是Handler大显神威的时候了,简单地说,他是各种处理器,有处理验证登录的,有处理Cooki 阅读全文
posted @ 2020-04-23 18:41 lincappu 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 在python2里边,用urllib库和urllib2库来实现请求的发送,但是在python3种在也不用那么麻烦了,因为只有一个库了:Urllib. urllib库是python的标准库,简而言之就是不用自己安装,使用时只需要import一下就好。 urllib库包含4个模块: request: 最 阅读全文
posted @ 2020-04-23 18:39 lincappu 阅读(2360) 评论(0) 推荐(0) 编辑
摘要: 什么是 Urllib 库? urllib 库 是 Python 内置的 HTTP 请求库。urllib 模块提供的上层接口,使访问 www 和 ftp 上的数据就像访问本地文件一样。 有以下几种模块: 1.urllib.request 请求模块 2. urllib.error 异常处理模块 3. u 阅读全文
posted @ 2020-04-23 18:37 lincappu 阅读(16324) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 21 下一页