摘要:
Scrapy at a glance(Scrapy简介)Scrapy is an application framework for crawling web sites and extracting structured data which can be used for a wide range of useful applications, like data mining, information processing or historical archival. Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数 阅读全文
摘要:
#!/usr/bin/python# -*- coding: utf-8 -*-# filename: paxel.py'''It is a multi-thread downloading tool It was developed follow axel. Author: volans E-mail: volansw [at] gmail.com'''import sysimport osimport timeimport urllibfrom threading import Threadlocal_proxies = {'http 阅读全文
摘要:
综述多线程是程序设计中的一个重要方面,尤其是在服务器Deamon程序方面。无论何种系统,线程调度的开销都比传统的进程要快得多。Python可以方便地支持多线程。可以快速创建线程、互斥锁、信号量等等元素,支持线程读写同步互斥。美中不足的是,Python的运行在Python虚拟机上,创建的多线程可能是虚拟的线程,需要由Python虚拟机来轮询调度,这大大降低了Python多线程的可用性。希望高版本的Python可以解决这个问题,发挥多CPU的最大效率。网上有些朋友说要获得真正多CPU的好处,有两种方法:1.可以创建多个进程而不是线程,进程数和cpu一样多。2.使用Jython 或 IronPyth 阅读全文