江湖么名 - 博客园

python怎么解压压缩的字符串数据

2013-07-28 18:22 by 江湖么名, 13077 阅读, 0 推荐, 收藏, 编辑

摘要：范例1: gzipimport StringIOimport gzipcompresseddata = gzip方式压缩的字符串(html)compressedstream = StringIO.StringIO(compresseddata)gzipper = gzip.GzipFile(fileobj=compressedstream)data = gzipper.read() # data就是解压后的数据一个简单的例子 1 import urllib2 2 from StringIO import StringIO 3 import gzip 4 5 def loadData(url.. 阅读全文

0 Comment

python全局变量被覆盖的问题

2013-07-28 13:06 by 江湖么名, 1433 阅读, 0 推荐, 收藏, 编辑

摘要：下面的情况，foo全局变量会被局部变量覆盖掉，这样在其它地方使用的值就是空值。 1 g_foo = '' #全局变量 2 3 def set(): 4 g_foo = 'abc' # 给全局变量赋值 5 6 def use_var() 7 print g_foo # 使用全局变量,这里会打印 None 8 9 set()10 use_var()使用全局变量，需要明确的声明(global) 1 g_foo = '' #全局变量 2 3 def set(): 4 global g_foo 5 g_foo = 'abc' # 给全局变量阅读全文

0 Comment

PyInstaller:把你的Python转为Exe

2013-07-28 12:33 by 江湖么名, 1262 阅读, 0 推荐, 收藏, 编辑

摘要：把Python程序转为可执行的EXE文件，之前已经介绍过,像py2exe，bbfreeze。以我自己使用的经历来看，这两款都还不错，比较适合简单的Python程序，如果你加载的第三方类库比较多的话，不仅体积大，而且可能打包之后还是无法执行。而且有的打包之后，执行时不是单个窗口，有一个类似Console的黑框框(听说可以取消，但不知道如何配置)。之前写过一个画宝宝身高和体重趋势的 Python程序，一直想把它打包，但无奈，这两款软件都没能成功。今天搜索一番，发现还有一个工具，当然不止一个啦，StackOverFlow里面讨论中，比较推荐PyInstaller, 而且让我意外的是，PyInst 阅读全文

0 Comment

用python正则表达式提取网页的url

2013-07-28 12:32 by 江湖么名, 4889 阅读, 0 推荐, 收藏, 编辑

摘要：1 import re 2 import urllib 3 url="http://www.itokit.com" 4 s=urllib.urlopen(url).read() 5 ss=s.replace(" ","") 6 urls=re.findall(r"",ss,re.I) 7 for i in urls: 8 print i 9 else:10 print 'this is over'挺好用的，记录下阅读全文

0 Comment

python模块之HTMLParser

2013-07-28 12:31 by 江湖么名, 519 阅读, 0 推荐, 收藏, 编辑

摘要：HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新的类，然后重新定义这几个以handler_开头的函数即可。这几个函数包括：handle_startendtag 处理开始标签和结束标签handle_starttag 处理开始标签，比. 阅读全文

0 Comment

python urllib2模块

2013-07-28 12:29 by 江湖么名, 520 阅读, 0 推荐, 收藏, 编辑

摘要：本文转载自：Tinoweb的“ python urllib2模块”简介：urllib2是python的一个获取url（Uniform Resource Locators，统一资源定址器）的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时也提供了一个稍微复杂的接口来处理常见的状况-如基本的认证，cookies，代理，等等。这些都是由叫做opener和handler的对象来处理的。以下是获取url最简单的方式：1 import urllib22 response = urllib2.urlopen('http://python. 阅读全文

0 Comment

Python:使用正则去除HTML标签(转)

2013-07-28 12:22 by 江湖么名, 16375 阅读, 0 推荐, 收藏, 编辑

摘要：利用正则式处理，不知道会不会有性能问题，没有经过太多测试。目前我有很多还是使用BeautifulSoup进行这种处理。HTML实体处理的只是用于处理一些常用的实体。 1 # -*- coding: utf-8-*- 2 import re 3 ##过滤HTML中的标签 4 #将HTML中标签等信息去掉 5 #@param htmlstr HTML字符串. 6 def filter_tags(htmlstr): 7 #先过滤CDATA 8 re_cdata=re.compile('//]*//\]\]>',re.I) #匹配CDATA 9 re_script=re.comp 阅读全文

0 Comment

Python和xml简介

2013-07-28 12:19 by 江湖么名, 473 阅读, 0 推荐, 收藏, 编辑

摘要：python提供越来越多的技术来支持xml，本文旨在面向初学利用Python处理xml的读者，以教程的形式介绍一些基本的xml出来概念。前提是读者必须知道一些xml常用术语。先决条件本文所有的例子基于Python2.6.5，pyxml的最新版本为0.8.1，该教程中的例子都需要导入minidom模块，所以在py文件中需要加入以下类似代码：?1import xml.dom.minidom当然，你也可以从minidom模块中只导入你需要的类。你可以使用以下代码来查看该模块的内容：?1dir(xml.dom.minidom)创建XML 文件首先，正如前面所说的，导入minidom模块：?1impo 阅读全文

0 Comment

用Python创建XML(转)

2013-07-28 12:18 by 江湖么名, 305 阅读, 0 推荐, 收藏, 编辑

摘要：在官方网站没有找到多少有用的知识。结果在Python and XML: An Introduction找到了一篇教程，抽空对照做，然后再总结分享出来。先来一个简单的： 1 from xml.dom.minidom import Document 2 3 # Create the minidom document 4 doc = Document() 5 6 # Create the base element 7 wml = doc.createElement("wml") 8 doc.appendChild(wml) 9 10 # Create the main eleme 阅读全文

0 Comment

python中文转换url编码

2013-07-28 12:15 by 江湖么名, 372 阅读, 0 推荐, 收藏, 编辑

摘要：今天要处理百度贴吧的东西。想要做一个关键词的list，每次需要时，直接添加到list里面就可以了。但是添加到list里面是中文的情况（比如‘丽江’），url的地址编码却是’%E4%B8%BD%E6%B1%9F’，因此需要做一个转换。这里我们就用到了模块urllib。>>> import urllib>>> data = ‘丽江’>>> print data丽江>>> data‘\xe4\xb8\xbd\xe6\xb1\x9f’>>> urllib.quote(data)‘%E4%B8%BD%E6%B1 阅读全文

0 Comment

About