用html.parser抓网页中的超链接,返回list
#python3
from html.parser import HTMLParser class MyHTMLParser(HTMLParser): """ 1、tag是的html标签,attrs是标签的属性 2、抓网页中的超链接,返回list 3、抓网页标题, 4、handle_data:处理数据,就是<xx>data</xx>中间的那些数据 """ def __init__(self): HTMLParser.__init__(self) self.links=[] def handle_starttag(self, tag, attrs): if tag=="a": for key,value in attrs: if key=="href" and "http:" in value: self.links.append(value) data="""html页面的源码""" #初始化类MyHTMLParser parser=MyHTMLParser() #喂养,塞html页面的代码进去,会返回一个class类 parser.feed(data) #操作类方法和属性 print(parser.links)#操作属性
无语言基础,自学python所做的各种笔记,欢迎大牛指点.