摘要: 为什么要学正则表达式 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 我们在昨天的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数 阅读全文
posted @ 2018-06-14 21:34 王琳杰 阅读(113) 评论(0) 推荐(0) 编辑
摘要: Python2和Python3中urllib库中urlencode的使用注意事项 前言 在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包位置有些不同。 对 阅读全文
posted @ 2018-06-14 19:38 王琳杰 阅读(3304) 评论(0) 推荐(0) 编辑
摘要: urllib库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib。在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个 阅读全文
posted @ 2018-06-14 00:18 王琳杰 阅读(213) 评论(0) 推荐(0) 编辑