上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 16 下一页
摘要: 本篇将介绍python正则表达式,更多内容请参考: "【python正则表达式】" 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串” 阅读全文
posted @ 2017-12-03 21:25 小破孩92 阅读(1878) 评论(1) 推荐(0) 编辑
摘要: "Python学习指南" 有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法? 有!那就是XPath,我们可以用先将HTML文档转换成XML文档,然后用XPath查找HTML节点或元素。 什么是XML + XML指可扩展标记语言(Extensible Markup Language) 阅读全文
posted @ 2017-12-03 21:18 小破孩92 阅读(3965) 评论(0) 推荐(0) 编辑
摘要: 本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考: "Python学习指南" 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了。 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/li 阅读全文
posted @ 2017-11-26 18:59 小破孩92 阅读(15626) 评论(0) 推荐(0) 编辑
摘要: Requests:让HTTP服务人类 虽然Python的标准库中urllib2模块中已经包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太好,而Requests自称"HTTP for Humans",说明使用更简单方便。 Requests唯一的一个非转基因的Python HTTP库, 阅读全文
posted @ 2017-11-23 00:05 小破孩92 阅读(1990) 评论(0) 推荐(0) 编辑
摘要: urllib2的异常错误处理 在我们用 方法发出一个请求时,如果 不能处理这个response,就产生错误。 这里主要说的是URLError和HTTPError,以及对它们的错误处理。 URLError URLError产生的原因主要有: 1. 没有网络连接 2. 服务器链接失败 3. 找不到指定的 阅读全文
posted @ 2017-11-22 17:41 小破孩92 阅读(10335) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 16 下一页
我的博客即将同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=1lpynpue2xgn