摘要: python对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下python对多种不同语言的处理。有一点需要清楚的是,当python要做编码转换的时候,会借助于内部的编码,转换过程是这样的:原有编码 -> 内部编码 -> 目的编码 python的内部是使用unicode来 阅读全文
posted @ 2017-04-04 12:29 知行Lee 阅读(8330) 评论(0) 推荐(0) 编辑
摘要: 电脑缓存目录: 1.取消文件隐藏 2.找到C:\Users\lwx351192\AppData\Local\Temp目录下的三个子文件夹local,locallow,roaming里面的文件都可删除, temp文件夹下,存放了一些解压文件,安装软件时就从这里调取数据特别是一些制图软件,体积非常大,占 阅读全文
posted @ 2017-04-04 11:07 知行Lee 阅读(736) 评论(0) 推荐(0) 编辑
摘要: import requests s = requests.Session() s.trust_env = False This will prevent requests getting any information from its environment: specifically, it'l 阅读全文
posted @ 2017-03-26 15:17 知行Lee 阅读(914) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.cnblogs.com/turtle-fly/p/3280519.html 本文环境:Python 2.7 使用 print obj 而非 print(obj) sys.stdin,sys.stdout,sys.stderr: stdin , stdout , 以及std 阅读全文
posted @ 2017-03-26 15:00 知行Lee 阅读(15607) 评论(0) 推荐(1) 编辑
摘要: 转载: http://www.cnblogs.com/rhcad/archive/2011/12/21/2295507.html 1 Python装饰器学习(九步入门) 这是在Python学习小组上介绍的内容,现学现卖、多练习是好的学习方式。 第一步:最简单的函数,准备附加额外功能 1 2 3 4 阅读全文
posted @ 2017-03-19 16:26 知行Lee 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 转载:http://python.jobbole.com/81967/ 2.x版本须继承object,才能实现。 Python中有个很赞的概念,叫做property,它使得面向对象的编程更加简单。在详细解释和深入了解Python中的property之前,让我们首先建立这样一个直觉:为什么我们需要用到 阅读全文
posted @ 2017-03-19 16:25 知行Lee 阅读(1372) 评论(0) 推荐(0) 编辑
摘要: 转载: http://www.cnblogs.com/fnng/p/3230768.html 本节重点: 调用js方法 execute_script(script, *args) 在当前窗口/框架 同步执行javaScript 脚本:JavaScript的执行。 *参数:适用任何JavaScript 阅读全文
posted @ 2017-03-19 15:36 知行Lee 阅读(54190) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*- """ __mktime__ = '${DATE}' __author__ = '${USER}' __filename__ = '${NAME}' """ if __name__ == "__main__": pass 阅读全文
posted @ 2017-03-19 15:32 知行Lee 阅读(1456) 评论(0) 推荐(0) 编辑
摘要: 前言 在上一节中介绍了thread多线程库。python中的多线程其实并不是真正的多线程,并不能做到充分利用多核CPU资源。 如果想要充分利用,在python中大部分情况需要使用多进程,那么这个包就叫做 multiprocessing。 借助它,可以轻松完成从单进程到并发执行的转换。multipro 阅读全文
posted @ 2017-02-08 21:58 知行Lee 阅读(4831) 评论(0) 推荐(1) 编辑
摘要: 前言 我们之前写的爬虫都是单个线程的?这怎么够?一旦一个地方卡到不动了,那不就永远等待下去了?为此我们可以使用多线程或者多进程来处理。 首先声明一点! 多线程和多进程是不一样的!一个是 thread 库,一个是 multiprocessing 库。而多线程 thread 在 Python 里面被称作 阅读全文
posted @ 2017-02-08 21:56 知行Lee 阅读(13499) 评论(0) 推荐(1) 编辑
摘要: 审时度势 PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架,支持多线程爬取、JS动态解析,提供了可操作界面、出错重试、定时爬取等等的功能,使用非常人性化。 本篇内容通过跟我做一个好玩的 PySpider 项目,来理解 PySpider 的运行流程。 招兵买马 具体的安装过程请查看本节 阅读全文
posted @ 2017-02-08 21:56 知行Lee 阅读(17431) 评论(1) 推荐(2) 编辑
摘要: 初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。 Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同。 阅读全文
posted @ 2017-02-08 21:55 知行Lee 阅读(1101) 评论(0) 推荐(0) 编辑
摘要: 综述 爬虫入门之后,我们有两条路可以走。 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展。另一条路便是学习一些优秀的框架,先把这些框架用熟,可以确保能够应付一些基本的爬虫任务,也就是所谓的解决温饱问题,然后再深入 阅读全文
posted @ 2017-02-08 21:54 知行Lee 阅读(2295) 评论(0) 推荐(0) 编辑
摘要: 关于 首先,在此附上项目的地址,以及官方文档 PySpider 官方文档 安装 1. pip 首先确保你已经安装了pip,若没有安装,请参照 pip安装 2. phantomjs PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持 阅读全文
posted @ 2017-02-08 21:54 知行Lee 阅读(996) 评论(0) 推荐(0) 编辑
摘要: 前言 你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有了一些前端基础了解选择器却与另外一些奇怪的选择器语法混淆了呢? 嗯,那么,前端大大们的福音来了,Py 阅读全文
posted @ 2017-02-08 21:52 知行Lee 阅读(4847) 评论(0) 推荐(0) 编辑
摘要: 前言 在上一节我们学习了 PhantomJS 的基本用法,归根结底它是一个没有界面的浏览器,而且运行的是 JavaScript 脚本,然而这就能写爬虫了吗?这又和Python有什么关系?说好的Python爬虫呢?库都学完了你给我看这个?客官别急,接下来我们介绍的这个工具,统统解决掉你的疑惑。 简介 阅读全文
posted @ 2017-02-08 21:51 知行Lee 阅读(89394) 评论(1) 推荐(6) 编辑
摘要: 前言 大家有没有发现之前我们写的爬虫都有一个共性,就是只能爬取单纯的html代码,如果页面是JS渲染的该怎么办呢?如果我们单纯去分析一个个后台的请求,手动去摸索JS渲染的到的一些结果,那简直没天理了。所以,我们需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面。 其中有一个比较常用的工具, 阅读全文
posted @ 2017-02-08 21:50 知行Lee 阅读(23772) 评论(0) 推荐(1) 编辑
摘要: 上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一 阅读全文
posted @ 2017-02-08 21:49 知行Lee 阅读(3265) 评论(0) 推荐(0) 编辑
摘要: 前言 前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpath。 参考来源 lxml用法源自 l 阅读全文
posted @ 2017-02-08 21:49 知行Lee 阅读(31811) 评论(0) 推荐(0) 编辑
摘要: 前言 之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。 注:Python 版本依然基于 2.7 官方文档 以 阅读全文
posted @ 2017-02-08 21:47 知行Lee 阅读(6055) 评论(0) 推荐(0) 编辑