代码改变世界

随笔分类 -  python_html

python访问web的利器:urllib2

2013-07-30 23:26 by 江湖么名, 775 阅读, 收藏,
摘要: 使用Python访问网页主要有三种方式: urllib, urllib2, httpliburllib比较简单,功能相对也比较弱,httplib简单强大,但好像不支持session1. 最简单的页面访问res=urllib2.urlopen(url)print res.read()2. 加上要get或post的数据data={"name":"hank", "passwd":"hjz"}urllib2.urlopen(url, urllib.urlencode(data))3. 加上http头header={&quo 阅读全文

urllib2模块、cookielib模块

2013-07-30 23:13 by 江湖么名, 5434 阅读, 收藏,
摘要: urllib2模块 urllib模块和urllib模块类似,用来打开URL并从中获取数据。与urllib模块不同的是,urllib模块不仅可以使用urlopen() 函数还可以自定义Opener来访问网页。同时要注意:urlretrieve()函数是urllib模块中的,urllib2模块中不存在该函数。但是 使用urllib2模块时一般都离不开urllib模块,因为POST的数据需要使用urllib.urlencode()函数来编码。 一、urlopen() 最简单的请求方式就是用urlopen()函数。 urlopen (url [,data ,[timeout]]) 函数打开URL u. 阅读全文

Python BeautifulSoup 简单笔记

2013-07-30 22:54 by 江湖么名, 18429 阅读, 收藏,
摘要: Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于 不规则的 Html文档,也有很多的补全功能,节省了开发者的时间和精力。Beautiful Soup 的官方文档齐全,将官方给出的例子实践一遍就能掌握。官方英文文档,中文文档一 安装 Beautiful Soup 安装 BeautifulSoup 很简单,下载 BeautifulSoup 源码。解压运行 python setup.py install 即可。测试安装是否成功。键入 import BeautifulSoup 如果没有 阅读全文

Python 标准库 urllib2 的使用细节

2013-07-30 22:35 by 江湖么名, 366 阅读, 收藏,
摘要: Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 的使用细节。Proxy 的设置Timeout 设置在 HTTP Request 中加入特定的 HeaderRedirectCookie使用 HTTP 的 PUT 和 DELETE 方法得到 HTTP 的返回码Debug LogProxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用下面的方式import 阅读全文

SQLite使用小结

2013-07-30 19:00 by 江湖么名, 4007 阅读, 收藏,
摘要: 一、SQLite简介 SQLite是一款轻型的数据库,是遵守ACID的关联式数据库管理系统,它的设计目标是嵌入式的,而且目前已经在很多嵌入式产品中使用了它,它占用资源非常的低,在嵌入式设备中,可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统,同时能够跟很多程序语言相结合,比如Tcl、PHP、Java等,还有ODBC接口,同样比起Mysql、PostgreSQL这两款开源世界著名的数据库管理系统来讲,它的处理速度比他们都快。 SQLite虽然很小巧,但是支持的SQL语句不会逊色于其他开源数据库,它支持的SQL包括: ATTACH DATABA... 阅读全文

Python 实现腾讯新闻抓取

2013-07-30 08:42 by 江湖么名, 482 阅读, 收藏,
摘要: 原文地址:http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.htm思路:1.抓取腾讯新闻列表页面: http://news.qq.com/2.提取详细页面的url:http://news.qq.com/a/20120814/000070.htm 3.在详细页中提取新闻标题和内容4.去除提取内容中的html标签,生成txt文档 代码: 1 #coding=utf-8 2 import sys 3 import urllib2 4 import re 5 import os 6 7 def extract_url(info): 8 . 阅读全文

Python验证Url地址的正则表达式

2013-07-29 08:36 by 江湖么名, 10323 阅读, 收藏,
摘要: 如下是django中做url验证的正则表达式:1 regex = re.compile(2 r'^(?:http|ftp)s?://' # http:// or https://3 r'(?:(?:[A-Z0-9](?:[A-Z0-9-]{0,61}[A-Z0-9])?\.)+(?:[A-Z]{2,6}\.?|[A-Z0-9-]{2,}\.?)|' #domain...4 r'localhost|' #localhost...5 r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})' # ...or ip6 阅读全文

python怎么解压压缩的字符串数据

2013-07-28 18:22 by 江湖么名, 13082 阅读, 收藏,
摘要: 范例1: gzipimport StringIOimport gzipcompresseddata = gzip方式压缩的字符串(html)compressedstream = StringIO.StringIO(compresseddata)gzipper = gzip.GzipFile(fileobj=compressedstream)data = gzipper.read() # data就是解压后的数据一个简单的例子 1 import urllib2 2 from StringIO import StringIO 3 import gzip 4 5 def loadData(url.. 阅读全文

用python正则表达式提取网页的url

2013-07-28 12:32 by 江湖么名, 4913 阅读, 收藏,
摘要: 1 import re 2 import urllib 3 url="http://www.itokit.com" 4 s=urllib.urlopen(url).read() 5 ss=s.replace(" ","") 6 urls=re.findall(r"",ss,re.I) 7 for i in urls: 8 print i 9 else:10 print 'this is over'挺好用的,记录下 阅读全文

python模块之HTMLParser

2013-07-28 12:31 by 江湖么名, 519 阅读, 收藏,
摘要: HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它 主要的用户回调函数的命名都是以handler_开头的,都是HTMLParser的成员函数。当我们使用时,就从HTMLParser派生出新的类,然 后重新定义这几个以handler_开头的函数即可。这几个函数包括:handle_startendtag 处理开始标签和结束标签handle_starttag 处理开始标签,比. 阅读全文

python urllib2模块

2013-07-28 12:29 by 江湖么名, 522 阅读, 收藏,
摘要: 本文转载自:Tinoweb的“ python urllib2模块”简介:urllib2是python的一个获取url(Uniform Resource Locators,统一资源定址器)的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时 也提供了一个稍微复杂的接口来处理常见的状况-如基本的认证,cookies,代理,等等。这些都是由叫做opener和handler的对象来处理的。以下是获取url最简单的方式:1 import urllib22 response = urllib2.urlopen('http://python. 阅读全文

Python:使用正则去除HTML标签(转)

2013-07-28 12:22 by 江湖么名, 16395 阅读, 收藏,
摘要: 利用正则式处理,不知道会不会有性能问题,没有经过太多测试。目前我有很多还是使用BeautifulSoup进行这种处理。HTML实体处理的只是用于处理一些常用的实体。 1 # -*- coding: utf-8-*- 2 import re 3 ##过滤HTML中的标签 4 #将HTML中标签等信息去掉 5 #@param htmlstr HTML字符串. 6 def filter_tags(htmlstr): 7 #先过滤CDATA 8 re_cdata=re.compile('//]*//\]\]>',re.I) #匹配CDATA 9 re_script=re.comp 阅读全文

python中文转换url编码

2013-07-28 12:15 by 江湖么名, 373 阅读, 收藏,
摘要: 今天要处理百度贴吧的东西。想要做一个关键词的list,每次需要时,直接添加 到list里面就可以了。但是添加到list里面是中文的情况(比如‘丽江’),url的地址编码却是’%E4%B8%BD%E6%B1%9F’,因此需 要做一个转换。这里我们就用到了模块urllib。>>> import urllib>>> data = ‘丽江’>>> print data丽江>>> data‘\xe4\xb8\xbd\xe6\xb1\x9f’>>> urllib.quote(data)‘%E4%B8%BD%E6%B1 阅读全文

Python如何下载文件

2013-07-28 12:10 by 江湖么名, 2967 阅读, 收藏,
摘要: 利用程序自己编写下载文件挺有意思的。Python中最流行的方法就是通过Http利用urllib或者urllib2模块。当然你也可以利用ftplib从ftp站点下载文件。此外Python还提供了另外一种方法requests。来看看三种方法是如何来下载zip文件的: 1 import urllib 2 import urllib2 3 import requests 4 5 url = 'http://www.blog.pythonlibrary.org/wp-content/uploads/2012/06/wxDbViewer.zip' 6 7 print "downl 阅读全文