摘要: 001 #coding:utf-8002 import re,os,shutil,sys003 import urllib2,socket,cookielib004 from threading import Thread,stack_size,Lock005 from Queue import Queue006 import time007 from gzip import GzipFile008 from StringIO import StringIO009 010 class ContentEncodingProcessor(urllib2.BaseHandler):011 " 阅读全文
posted @ 2014-01-08 23:22 怒杀神 阅读(541) 评论(0) 推荐(0) 编辑
摘要: SGMLParserPython 默认自带 HTMLParser 以及 SGMLParser 等等解析器,前者实在是太难用了,我就用 SGMLParser 写了一个示例程序:import urllib2from sgmllib import SGMLParserclass ListName(SGMLParser): def __init__(self): SGMLParser.__init__(self) self.is_h4 = "" self.name = [] def start_h4(self, attrs): self.is_h4 = 1 def end_h4(s 阅读全文
posted @ 2014-01-08 23:08 怒杀神 阅读(2457) 评论(0) 推荐(0) 编辑
摘要: #使用import导入import my_modulemy_module.something() #out - orignal#这里修改输出 - changedreload(my_module)my_module.something() #out - changed#使用from import导入import my_module #这个需要有,否则不能reloadfrom my_module import somethingsomething() # out - orignal# 修改输出为 changed##注意这里用reload不好使,咋办##需要在第3行前面加入import my_mod 阅读全文
posted @ 2014-01-08 23:03 怒杀神 阅读(490) 评论(0) 推荐(0) 编辑
摘要: 在ipython终端时,可能临时需要使用shell命令进行简单处理;可以在shell命令前面使用 !(感叹号)比如在win7,ipython下想要使用sublime新建一个py,可以这样!subl.exe .py 阅读全文
posted @ 2014-01-08 22:38 怒杀神 阅读(529) 评论(0) 推荐(1) 编辑
摘要: 下面我们再来看看urllib模块提供的 urlretrieve() 函数。urlretrieve() 方法直接将远程数据下载到本地。1>>>help(urllib.urlretrieve)2Helpon function urlretrieveinmodule urllib:34urlretrieve(url, filename=None, reporthook=None, data=None)参数 finename 指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)参数 reporthook 是一个回调函数,当连接上服务器、以及相应的数据块传输完 阅读全文
posted @ 2014-01-08 21:59 怒杀神 阅读(3209) 评论(0) 推荐(1) 编辑
摘要: urllib 是 python 自带的一个抓取网页信息一个接口,他最主要的方法是urlopen(),是基于 python 的 open() 方法的。下面是主要说明:1urllib.urlopen('网址')这里传入urlopen()的参数有特别说要求,要遵循一些网络协议,比如http,ftp,也就是说,在网址的开头必须要有http://这样的说明,如:urllib.urlopen('http://www.baidu.com')。要么就是本地文件,本地文件需要使用file关键字,比如 urllib.urlopen('file:nowamagic.py 阅读全文
posted @ 2014-01-08 21:19 怒杀神 阅读(864) 评论(0) 推荐(0) 编辑
摘要: Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据。下面是在 Python Shell 里的urllib的使用情况:01Python2.7.5(default, May152013,22:44:16) [MSC v.150064bit (AMD64)] on win3202Type"copyright","credits"or"license()"formore information.03>>>importurllib04>>> goo 阅读全文
posted @ 2014-01-08 20:32 怒杀神 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 正如那句 Python 社区中很有名的话所说的:“battery included”,Python 的一大好处在于它有一套很有用的标准库(standard library)。标准库是随着 Python 一起安装在你的电脑中的,是 Python 的一部分 (当然也有特殊情况。有些场合会因为系统安全性的要求,不使用全部的标准库,比如说Google App Engine)。利用已有的类(class)和函数(function)进行开发,可以省去你从头写所有程序的苦恼。这些标准库就是盖房子已经烧好的砖,要比你自己去烧砖来得便捷得多。我将根据我个人的使用经验中,先挑选出标准库下面三个方面的包(packag 阅读全文
posted @ 2014-01-08 20:24 怒杀神 阅读(575) 评论(0) 推荐(0) 编辑
摘要: 用Python模拟登录网站前面简单提到了Python模拟登录的程序,但是没写清楚,这里再补上一个带注释的 Python 模拟登录的示例程序。简单说一下流程:先用cookielib获取cookie,再用获取到的cookie,进入需要登录的网站。01# -*- coding: utf-8 -*-02# !/usr/bin/python0304importurllib205importurllib06importcookielib07importre0809auth_url='http://www.nowamagic.net/'10home_url='http://www.n 阅读全文
posted @ 2014-01-08 20:17 怒杀神 阅读(485) 评论(0) 推荐(0) 编辑