上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 38 下一页
摘要: SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段,它会根据 所发现的数据,调用一个自身内部的方法。为了使用这个分析器,您需要子类化 SGML- Parser类,并且覆盖这些方法。SGMLParser类里面包含了很多内部方法,开... 阅读全文
posted @ 2013-11-12 15:50 前行者2011 阅读(80) 评论(0) 推荐(0) 编辑
摘要: http://www.open-open.com/lib/view/1329700631343SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段,它会根据 所发现的数据,调用一个自身内部的方法。为了使用这个分析器,您需要子类化 ... 阅读全文
posted @ 2013-11-12 15:25 前行者2011 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 使用正则抓取oschina博客专区首页数据,包括:博客链接地址、标题、摘要、发布人、发布时间#coding:utf-8import urllib2,redef getpage(url): f=urllib2.Request(url) #此时添加header,模拟浏览器访问,否则会报错:H... 阅读全文
posted @ 2013-11-11 17:22 前行者2011 阅读(131) 评论(0) 推荐(0) 编辑
摘要: #coding:utf-8from HTMLParser import HTMLParserimport pprintclass myhtml(HTMLParser): def __init__(self): HTMLParser.__init__(self) se... 阅读全文
posted @ 2013-11-11 12:06 前行者2011 阅读(168) 评论(0) 推荐(0) 编辑
摘要: from HTMLParser import HTMLParserclass myHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.links=[] def h... 阅读全文
posted @ 2013-11-08 21:05 前行者2011 阅读(109) 评论(0) 推荐(0) 编辑
摘要: #coding:utf-8import HTMLParserclass myhp(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) self.d={} self.tag=None self... 阅读全文
posted @ 2013-11-08 20:51 前行者2011 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找... 阅读全文
posted @ 2013-11-08 20:32 前行者2011 阅读(137) 评论(0) 推荐(0) 编辑
摘要: #coding:utf-8def main(a,b): '输出两个数的最大公约数' #比较a、b的大小 t=cmp(a,b) #a、b相等时返直接返回 if not t: return a #如果a>b,讲a、b的值交换,保证b值较大 if t... 阅读全文
posted @ 2013-11-08 11:16 前行者2011 阅读(144) 评论(0) 推荐(0) 编辑
摘要: import urllib2,re#读取网页信息def getcontent(url): request=urllib2.Request(url) f=urllib2.urlopen(request) content= f.read() return content#使用re... 阅读全文
posted @ 2013-11-07 14:02 前行者2011 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 例子一:一下是修改类属性,class counter: count = 0 def __init__(self): self.__class__.count+=1 #此时类属性被类和所有类实例共享print counter.count # 0c=counter()pri... 阅读全文
posted @ 2013-11-06 16:48 前行者2011 阅读(109) 评论(0) 推荐(0) 编辑
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 38 下一页