2018 年 6月 14 日随笔档案 - 王琳杰

2018年6月14日

摘要：为什么要学正则表达式实际上爬虫一共就四个主要步骤：明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据（按照我们想要的方式存储和使用）我们在昨天的案例里实际上省略了第3步，也就是"取"的步骤。因为我们down下了的数阅读全文

posted @ 2018-06-14 21:34 王琳杰阅读(113) 评论(0) 推荐(0) 编辑

Python2和Python3中urllib库中urlencode的使用注意事项

摘要： Python2和Python3中urllib库中urlencode的使用注意事项前言在Python中，我们通常使用urllib中的urlencode方法将字典编码，用于提交数据给url等操作，但是在Python2和Python3中urllib模块中所提供的urlencode的包位置有些不同。对阅读全文

posted @ 2018-06-14 19:38 王琳杰阅读(3304) 评论(0) 推荐(0) 编辑

python爬虫基础

摘要： urllib库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib。在Python 2中，有urllib和urllib2两个库来实现请求的发送。而在Python 3中，已经不存在urllib2这个阅读全文

posted @ 2018-06-14 00:18 王琳杰阅读(213) 评论(0) 推荐(0) 编辑

一蓑烟雨

公告