python_html - 随笔分类 - 江湖么名

python访问web的利器：urllib2

2013-07-30 23:26 by 江湖么名, 775 阅读, 收藏,

摘要：使用Python访问网页主要有三种方式： urllib, urllib2, httpliburllib比较简单，功能相对也比较弱，httplib简单强大，但好像不支持session1. 最简单的页面访问res=urllib2.urlopen(url)print res.read()2. 加上要get或post的数据data={"name":"hank", "passwd":"hjz"}urllib2.urlopen(url, urllib.urlencode(data))3. 加上http头header={&quo 阅读全文

0 Comment

urllib2模块、cookielib模块

2013-07-30 23:13 by 江湖么名, 5434 阅读, 收藏,

摘要： urllib2模块 urllib模块和urllib模块类似，用来打开URL并从中获取数据。与urllib模块不同的是，urllib模块不仅可以使用urlopen() 函数还可以自定义Opener来访问网页。同时要注意：urlretrieve()函数是urllib模块中的，urllib2模块中不存在该函数。但是使用urllib2模块时一般都离不开urllib模块，因为POST的数据需要使用urllib.urlencode()函数来编码。一、urlopen（）最简单的请求方式就是用urlopen()函数。 urlopen (url [,data ,[timeout]]) 函数打开URL u. 阅读全文

0 Comment

Python BeautifulSoup 简单笔记

2013-07-30 22:54 by 江湖么名, 18429 阅读, 收藏,

摘要： Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器，它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于不规则的 Html文档，也有很多的补全功能，节省了开发者的时间和精力。Beautiful Soup 的官方文档齐全，将官方给出的例子实践一遍就能掌握。官方英文文档，中文文档一安装 Beautiful Soup 安装 BeautifulSoup 很简单，下载 BeautifulSoup 源码。解压运行 python setup.py install 即可。测试安装是否成功。键入 import BeautifulSoup 如果没有阅读全文

0 Comment

Python 标准库 urllib2 的使用细节

2013-07-30 22:35 by 江湖么名, 366 阅读, 收藏,

摘要： Python 标准库中有很多实用的工具类，但是在具体使用时，标准库文档上对使用细节描述的并不清楚，比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 的使用细节。Proxy 的设置Timeout 设置在 HTTP Request 中加入特定的 HeaderRedirectCookie使用 HTTP 的 PUT 和 DELETE 方法得到 HTTP 的返回码Debug LogProxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用下面的方式import 阅读全文

0 Comment

SQLite使用小结

2013-07-30 19:00 by 江湖么名, 4007 阅读, 收藏,

摘要：一、SQLite简介 SQLite是一款轻型的数据库，是遵守ACID的关联式数据库管理系统，它的设计目标是嵌入式的，而且目前已经在很多嵌入式产品中使用了它，它占用资源非常的低，在嵌入式设备中，可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统，同时能够跟很多程序语言相结合，比如Tcl、PHP、Java等，还有ODBC接口，同样比起Mysql、PostgreSQL这两款开源世界著名的数据库管理系统来讲，它的处理速度比他们都快。 SQLite虽然很小巧，但是支持的SQL语句不会逊色于其他开源数据库，它支持的SQL包括： ATTACH DATABA... 阅读全文

0 Comment

Python 实现腾讯新闻抓取

2013-07-30 08:42 by 江湖么名, 482 阅读, 收藏,

摘要：原文地址:http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.htm思路：1.抓取腾讯新闻列表页面: http://news.qq.com/2.提取详细页面的url：http://news.qq.com/a/20120814/000070.htm 3.在详细页中提取新闻标题和内容4.去除提取内容中的html标签，生成txt文档代码： 1 #coding=utf-8 2 import sys 3 import urllib2 4 import re 5 import os 6 7 def extract_url(info): 8 . 阅读全文

0 Comment

Python验证Url地址的正则表达式

2013-07-29 08:36 by 江湖么名, 10323 阅读, 收藏,

摘要：如下是django中做url验证的正则表达式：1 regex = re.compile(2 r'^(?:http|ftp)s?://' # http:// or https://3 r'(?:(?:[A-Z0-9](?:[A-Z0-9-]{0,61}[A-Z0-9])?\.)+(?:[A-Z]{2,6}\.?|[A-Z0-9-]{2,}\.?)|' #domain...4 r'localhost|' #localhost...5 r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})' # ...or ip6 阅读全文

0 Comment

python怎么解压压缩的字符串数据

2013-07-28 18:22 by 江湖么名, 13082 阅读, 收藏,

摘要：范例1: gzipimport StringIOimport gzipcompresseddata = gzip方式压缩的字符串(html)compressedstream = StringIO.StringIO(compresseddata)gzipper = gzip.GzipFile(fileobj=compressedstream)data = gzipper.read() # data就是解压后的数据一个简单的例子 1 import urllib2 2 from StringIO import StringIO 3 import gzip 4 5 def loadData(url.. 阅读全文

0 Comment

用python正则表达式提取网页的url

2013-07-28 12:32 by 江湖么名, 4913 阅读, 收藏,

摘要： 1 import re 2 import urllib 3 url="http://www.itokit.com" 4 s=urllib.urlopen(url).read() 5 ss=s.replace(" ","") 6 urls=re.findall(r"",ss,re.I) 7 for i in urls: 8 print i 9 else:10 print 'this is over'挺好用的，记录下阅读全文

0 Comment

python模块之HTMLParser

2013-07-28 12:31 by 江湖么名, 519 阅读, 收藏,

摘要： HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新的类，然后重新定义这几个以handler_开头的函数即可。这几个函数包括：handle_startendtag 处理开始标签和结束标签handle_starttag 处理开始标签，比. 阅读全文

0 Comment

python urllib2模块

2013-07-28 12:29 by 江湖么名, 522 阅读, 收藏,

摘要：本文转载自：Tinoweb的“ python urllib2模块”简介：urllib2是python的一个获取url（Uniform Resource Locators，统一资源定址器）的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时也提供了一个稍微复杂的接口来处理常见的状况-如基本的认证，cookies，代理，等等。这些都是由叫做opener和handler的对象来处理的。以下是获取url最简单的方式：1 import urllib22 response = urllib2.urlopen('http://python. 阅读全文

0 Comment

Python:使用正则去除HTML标签(转)

2013-07-28 12:22 by 江湖么名, 16395 阅读, 收藏,

摘要：利用正则式处理，不知道会不会有性能问题，没有经过太多测试。目前我有很多还是使用BeautifulSoup进行这种处理。HTML实体处理的只是用于处理一些常用的实体。 1 # -*- coding: utf-8-*- 2 import re 3 ##过滤HTML中的标签 4 #将HTML中标签等信息去掉 5 #@param htmlstr HTML字符串. 6 def filter_tags(htmlstr): 7 #先过滤CDATA 8 re_cdata=re.compile('//]*//\]\]>',re.I) #匹配CDATA 9 re_script=re.comp 阅读全文

0 Comment

python中文转换url编码

2013-07-28 12:15 by 江湖么名, 373 阅读, 收藏,

摘要：今天要处理百度贴吧的东西。想要做一个关键词的list，每次需要时，直接添加到list里面就可以了。但是添加到list里面是中文的情况（比如‘丽江’），url的地址编码却是’%E4%B8%BD%E6%B1%9F’，因此需要做一个转换。这里我们就用到了模块urllib。>>> import urllib>>> data = ‘丽江’>>> print data丽江>>> data‘\xe4\xb8\xbd\xe6\xb1\x9f’>>> urllib.quote(data)‘%E4%B8%BD%E6%B1 阅读全文

0 Comment

Python如何下载文件

2013-07-28 12:10 by 江湖么名, 2967 阅读, 收藏,

摘要：利用程序自己编写下载文件挺有意思的。Python中最流行的方法就是通过Http利用urllib或者urllib2模块。当然你也可以利用ftplib从ftp站点下载文件。此外Python还提供了另外一种方法requests。来看看三种方法是如何来下载zip文件的： 1 import urllib 2 import urllib2 3 import requests 4 5 url = 'http://www.blog.pythonlibrary.org/wp-content/uploads/2012/06/wxDbViewer.zip' 6 7 print "downl 阅读全文

0 Comment

江湖么名

随笔分类 - python_html