spider-抓取页面内容
# -*- coding: UTF-8 -*- from HTMLParser import HTMLParser import sys,urllib2,string,re,json reload(sys) sys.setdefaultencoding('utf-8') class hp(HTMLParser): def __init__(self): self.readingdata_a = False self.title = [] self.usite = [] HTMLParser.__init__(self) def handle_starttag(self,tag,attrs): #print tag if tag == 'a':for h,v in attrs: if v == 'entrylistItemTitle': self.readingdata_a = True self.usite.append(attrs[2][1]) def handle_data(self,data): if self.readingdata_a: self.title.append(data) def handle_endtag(self,tag): if tag == 'a': self.readingdata_a = False def getdata(self): #return zip(self.title,self.usite) 通过zip函数将其一对一合并为tuple i=0 listr = [] while i<len(self.title): listr.append(self.title[i] +' : '+self.usite[i]) i=i+1 return listr url='http://www.cnblogs.com/dreamer-fish/archive/2016/03.html' request = urllib2.Request(url) response = urllib2.urlopen(request).read() yk=hp() yk.feed(response) dd = yk.getdata() for i in dd: print i yk.close
结果:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?