2017 年 3月 5 日随笔档案 - 林深时见鹿

2017年3月5日

摘要：糗事百科实例：爬取糗事百科段子，假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求：使用requests获取页面信息，用XPath / re 做数据提取获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数保存到 json 文件阅读全文

posted @ 2017-03-05 23:49 林深时见鹿阅读(903) 评论(0) 推荐(0) 编辑

爬虫之JSON

摘要：数据提取之JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 P 阅读全文

posted @ 2017-03-05 23:44 林深时见鹿阅读(9046) 评论(0) 推荐(0) 编辑

爬虫bs4案例

摘要：案例：使用BeautifuSoup4的爬虫我们以腾讯社招页面来做演示：http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间，以及每个职位详情的点击链接存储出阅读全文

posted @ 2017-03-05 23:27 林深时见鹿阅读(617) 评论(0) 推荐(0) 编辑

爬虫bs4

摘要： CSS 选择器：BeautifulSoup4 和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树阅读全文

posted @ 2017-03-05 23:25 林深时见鹿阅读(1369) 评论(0) 推荐(0) 编辑

爬虫之Xpath案例

摘要：案例：使用XPath的爬虫现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。阅读全文

posted @ 2017-03-05 23:11 林深时见鹿阅读(435) 评论(0) 推荐(0) 编辑

爬虫之xpath

摘要：什么是XML XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官阅读全文

posted @ 2017-03-05 23:09 林深时见鹿阅读(635) 评论(0) 推荐(0) 编辑

爬虫之正则案例

摘要：我们一起尝试一下爬取内涵段子网站： http://www.neihan8.com/article/list_5_1.html 第一步：获取数据这里我们统一定义一个类，将url请求作为一个成员方法处理。我们创建一个文件，叫duanzi_spider.py 然后定义一个Spider类，并且添加一个加阅读全文

posted @ 2017-03-05 23:04 林深时见鹿阅读(705) 评论(0) 推荐(0) 编辑

爬虫之正则表达式的应用爬取

摘要： Python 的 re 模块在 Python 中，我们可以使用内置的 re 模块来使用正则表达式。有一点需要特别注意的是，正则表达式使用对特殊字符进行转义，所以如果我们要使用原始字符串，只需加一个 r 前缀，示例： re 模块的一般使用步骤如下：使用 compile() 函数将正则表达式的字阅读全文

posted @ 2017-03-05 22:55 林深时见鹿阅读(1919) 评论(0) 推荐(0) 编辑

爬虫之Requests: 让 HTTP 服务人类

摘要： Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py 阅读全文

posted @ 2017-03-05 22:47 林深时见鹿阅读(1487) 评论(0) 推荐(0) 编辑

爬虫之Handler处理器和自定义Opener

摘要： Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级阅读全文

posted @ 2017-03-05 22:36 林深时见鹿阅读(4193) 评论(0) 推荐(0) 编辑

爬虫之urllib2库的基本使用

摘要： urllib2库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。 urllib2 是 Python2.7 自带的模块(不需要下载，导入即可使用) urllib2 官方文档：https:// 阅读全文

posted @ 2017-03-05 22:31 林深时见鹿阅读(781) 评论(0) 推荐(0) 编辑

爬虫之Fiddler抓取HTTPS设置

摘要： Fiddler抓取HTTPS设置启动Fiddler，打开菜单栏中的 Tools > Telerik Fiddler Options，打开“Fiddler Options”对话框。对Fiddler进行设置：打开工具栏->Tools->Fiddler Options->HTTPS，选中Captu 阅读全文

posted @ 2017-03-05 22:28 林深时见鹿阅读(3246) 评论(0) 推荐(0) 编辑

林深时见鹿

公告