摘要: 糗事百科实例: 爬取糗事百科段子,假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件 阅读全文
posted @ 2017-03-05 23:49 林深时见鹿 阅读(903) 评论(0) 推荐(0) 编辑
摘要: 数据提取之JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 P 阅读全文
posted @ 2017-03-05 23:44 林深时见鹿 阅读(9046) 评论(0) 推荐(0) 编辑
摘要: 案例:使用BeautifuSoup4的爬虫 我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出 阅读全文
posted @ 2017-03-05 23:27 林深时见鹿 阅读(617) 评论(0) 推荐(0) 编辑
摘要: CSS 选择器:BeautifulSoup4 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树 阅读全文
posted @ 2017-03-05 23:25 林深时见鹿 阅读(1369) 评论(0) 推荐(0) 编辑
摘要: 案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。 阅读全文
posted @ 2017-03-05 23:11 林深时见鹿 阅读(435) 评论(0) 推荐(0) 编辑
摘要: 什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官 阅读全文
posted @ 2017-03-05 23:09 林深时见鹿 阅读(635) 评论(0) 推荐(0) 编辑
摘要: 我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5_1.html 第一步:获取数据 这里我们统一定义一个类,将url请求作为一个成员方法处理。 我们创建一个文件,叫duanzi_spider.py 然后定义一个Spider类,并且添加一个加 阅读全文
posted @ 2017-03-05 23:04 林深时见鹿 阅读(705) 评论(0) 推荐(0) 编辑
摘要: Python 的 re 模块 在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。 有一点需要特别注意的是,正则表达式使用 对特殊字符进行转义,所以如果我们要使用原始字符串,只需加一个 r 前缀,示例: re 模块的一般使用步骤如下: 使用 compile() 函数将正则表达式的字 阅读全文
posted @ 2017-03-05 22:55 林深时见鹿 阅读(1919) 评论(0) 推荐(0) 编辑
摘要: Requests: 让 HTTP 服务人类 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py 阅读全文
posted @ 2017-03-05 22:47 林深时见鹿 阅读(1487) 评论(0) 推荐(0) 编辑
摘要: Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级 阅读全文
posted @ 2017-03-05 22:36 林深时见鹿 阅读(4193) 评论(0) 推荐(0) 编辑
摘要: urllib2库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) urllib2 官方文档:https:// 阅读全文
posted @ 2017-03-05 22:31 林深时见鹿 阅读(781) 评论(0) 推荐(0) 编辑
摘要: Fiddler抓取HTTPS设置 启动Fiddler,打开菜单栏中的 Tools > Telerik Fiddler Options,打开“Fiddler Options”对话框。 对Fiddler进行设置: 打开工具栏->Tools->Fiddler Options->HTTPS, 选中Captu 阅读全文
posted @ 2017-03-05 22:28 林深时见鹿 阅读(3246) 评论(0) 推荐(0) 编辑