摘要: python是支持多线程的,主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用。 虽然python的多线程受GIL限制,并不是真正的多线程,但是对于I/O密集型计算还是能明显提高效率 阅读全文
posted @ 2019-01-18 11:01 派森学python 阅读(338) 评论(0) 推荐(0) 编辑
摘要: 一、探讨 识别图形验证码可以说是做爬虫的必修课,涉及到计算机图形学,机器学习,机器视觉,人工智能等等高深领域…… 简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。图形通常由点、线、面、体等几何元素和灰度、色彩、线型、线宽等 阅读全文
posted @ 2019-01-18 10:59 派森学python 阅读(794) 评论(0) 推荐(0) 编辑
摘要: 在使用pytesser做图片文字识别时遇到 WindowsError: [Error 2] 错误,报错内容如下: Traceback (most recent call last): File "E:/Code/Captcha/ChinaMobileEC/recogCaptcha.py", line 阅读全文
posted @ 2019-01-18 10:56 派森学python 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 一、选取节点 常用的路劲表达式: 二、谓语 谓语被嵌在方括号内,用来查找某个特定的节点或包含某个制定的值的节点 实例: 三、通配符 Xpath通过通配符来选取未知的XML元素 四、取多个路径 使用“|”运算符可以选取多个路径 五、Xpath轴 轴可以定义相对于当前节点的节点集 六、功能函数 使用功能 阅读全文
posted @ 2019-01-18 10:53 派森学python 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 爬虫代理IP池 在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来。不过呢,闲暇时间手痒,所以就想利用一些免费的资源搞一个简单的代理池服务。 1、问题 代理IP从何而 阅读全文
posted @ 2019-01-18 10:51 派森学python 阅读(1176) 评论(0) 推荐(0) 编辑
摘要: 前言 在GitHub上维护了一个代理池的项目,代理来源是抓取一些免费的代理发布网站。上午有个小哥告诉我说有个代理抓取接口不能用了,返回状态521。抱着帮人解决问题的心态去跑了一遍代码。发现果真是这样。 通过Fiddler抓包比较,基本可以确定是JavaScript生成加密Cookie导致原来的请求返 阅读全文
posted @ 2019-01-18 10:48 派森学python 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 选择了脚本语言就要忍受其速度,这句话在某种程度上说明了 python 作为脚本的一个不足之处,那就是执行效率和性能不够理想,特别是在 performance 较差的机器上,因此有必要进行一定的代码优化来提高程序的执行效率。如何进行 Python 性能优化,是本文探讨的主要问题。本文会涉及常见的代码优 阅读全文
posted @ 2019-01-18 10:43 派森学python 阅读(1823) 评论(0) 推荐(0) 编辑
摘要: Python 是一个美丽的语言,可以激发用户对它的爱。所以如果你试图加入程序员行列,或者你有点厌倦C++,Perl,Java 和其他语言,我推荐你尝试Python. Python有很多吸引程序员的功能 ,它易学,面向对象,字节码编译,免费且开源。还有运行时检查。完整快速的支持,可以执行各种任务的扩展 阅读全文
posted @ 2019-01-18 10:41 派森学python 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 本文将介绍如何编写一个只有200行的Python脚本,为两张肖像照上人物的“换脸”。 这个过程可分为四步: 检测面部标记。 旋转、缩放和转换第二张图像,使之与第一张图像相适应。 调整第二张图像的色彩平衡,使之与第一个相匹配。 把第二张图像的特性混合在第一张图像中。 完整的源代码可以从这里下载: ht 阅读全文
posted @ 2019-01-18 10:37 派森学python 阅读(4013) 评论(0) 推荐(0) 编辑