随笔分类 - python
摘要:本章叫介绍如何使用selenium在浏览器中使用js脚本,更多内容请参考: "Python学习指南" 1. 隐藏百度图片 2. 模拟滚动条滚动到底部
阅读全文
摘要:本篇主要介绍使用selenium模拟点击下一页,更多内容请参考: "Python学习指南"
阅读全文
摘要:本篇博客主要用于介绍如何使用selenium+phantomJS模拟登陆豆瓣,没有考虑验证码的问题,更多内容,请参考: "Python学习指南" 期初使用driver = webdriver.PhantomJS(),返回的只是,增加了参数就可以了 参考: 1. "获取不到内容,问题参考" 2. "S
阅读全文
摘要:本章将介绍使用Selenium和PhantomJS两种工具用来加载动态数据,更多内容请参考: "Python学习指南" Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动化
阅读全文
摘要:本案例介绍从JavaScript中采集加载的数据。更多内容请参考: "Python学习指南" 参考: "爬取时光网影评"
阅读全文
摘要:摘要:马爸爸提出DT时代,数据成为了现在高科技企业竞争的最主要资产。 Python基础 1. "Python数据类型转换" 2. "Python_IO编程" 3. "Python字符串操作" 4. "Python列表" 一种列表创建的简单方式 5. "Python列表生成式" 用来解决列表太大导致内
阅读全文
摘要:JavaScript JavaScript是网络上最常用也是支持者对多的客户端脚本语言。它可以收集用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。 我们可以在网页源代码的``标签里看到,比如: jQuery jQuery是一个非常常见的库,70%最流行的网站(约2
阅读全文
摘要:多线程糗事百科案例 案例要求参考上一个糗事百科单进程案例:http://www.cnblogs.com/miqi1992/p/8081929.html Queue(队列对象) Queue是python中的标准库,可以直接 引用;队列时线程间最常用的交互数据的形式。 python下多线程的思考 对于资
阅读全文
摘要:糗事百科实例 爬取糗事百科段子,假设页面的URL是: http://www.qiushibaike.com/8hr/page/1 要求: 1. 使用requests获取页面信息,用XPath/re做数据提取 2. 获取每个帖子里的用户头像连接、用户姓名、段子内容、点赞次数和评论次数 3. 保存到js
阅读全文
摘要:本篇将介绍使用,更多内容请参考: "Python学习指南" 数据提取之JSON与JsonPATH JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它是的人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台
阅读全文
摘要:本章将从Python案例讲起:所使用bs4做一个简单的爬虫案例,更多内容请参考: "Python学习指南" 案例:使用BeautifulSoup的爬虫 我们已腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10 a 使用BeautifulSo
阅读全文
摘要:CSS选择器:BeautifulSoup4 和lxml一样,Beautiful Soup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。 lxml只会局部遍历,而Beautiful Soup是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存
阅读全文
摘要:本篇是使用XPath的案例,更多内容请参考: "Python学习指南" 案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子且将该帖子里每个楼层发布的图片下载到本地。
阅读全文
摘要:爬虫的一个重要步骤就是页面解析与数据提取。更多内容请参考: "Python学习指南" 页面解析与数据提取 实际上爬虫一共就四个主要步骤: 1. 定(要知道你准备在哪个范围或者网站去搜索) 2. 爬(将所有的网站的内容全部爬下来) 3. 取(分析数据,去掉对我们没用处的数据) 4. 存(按照我们想要的
阅读全文
摘要:本篇将介绍python正则表达式,更多内容请参考: "【python正则表达式】" 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”
阅读全文
摘要:"Python学习指南" 有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法? 有!那就是XPath,我们可以用先将HTML文档转换成XML文档,然后用XPath查找HTML节点或元素。 什么是XML + XML指可扩展标记语言(Extensible Markup Language)
阅读全文
摘要:本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考: "Python学习指南" 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了。 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/li
阅读全文
摘要:Requests:让HTTP服务人类 虽然Python的标准库中urllib2模块中已经包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太好,而Requests自称"HTTP for Humans",说明使用更简单方便。 Requests唯一的一个非转基因的Python HTTP库,
阅读全文
摘要:urllib2的异常错误处理 在我们用 方法发出一个请求时,如果 不能处理这个response,就产生错误。 这里主要说的是URLError和HTTPError,以及对它们的错误处理。 URLError URLError产生的原因主要有: 1. 没有网络连接 2. 服务器链接失败 3. 找不到指定的
阅读全文
摘要:本文将介绍handler处理器和自定义opener,更多内容请参考: "python学习指南" opener和handleer 1. 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页,它是一个特殊的opener(也就是模块帮我们建好的),opener是urllib2.O
阅读全文