PyQuery库 python3
from pyquery import PyQuery as pq html=''' <html> <head> <title>test</title> </head> <body> <div id=jm1> <div id=jmc> <ul class=go> <li class='q'>123</li> <li class='w'><a href="www.jmc.command">456</li> <li class='ceshi aaa' ><a href="wlw.cn">ceshi</li> <li class='e aaa'><a href='qwe'>123abn</li> <li class='r'>123qwe</li> <li class='t'>123rty</li> </ul> </div> </body> </html> ''' #字符串初始化 # a=pq(html) #声明变量 # print (a('li')) #URL初始化 # a=pq(url='http://www.baidu.com') # print (a('head')) #文件初始化 # txt=pq(filename='1.html') # print (txt('li')) #基本的CSS选择器 # css=pq(html) # print (css('#jmc .go li')) #第一次匹配 # 第二层匹配 空格. #查找元素 #子元素 # doc=pq(html) # items=doc('.go') #先找到.go 的标签。 # print (type(items)) # print (items) #把找到的标签打印出来 # lis = items.find('li') #在打印出来的标签中找到含有li 的标签打印出来。 # print (lis) # lis=items.children() #children 子标签 # print (lis) # #父元素 # doc=pq(html) # items=doc('.go') #先找到.go 的标签。 # # parent=items.parent() # # print (parent) # #所有的祖先节点 # parents=items.parents() # print (parents) #兄弟元素 # doc=pq(html) # li=doc('.go .ceshi') # print (li) #输入含有.go .ceshi 的标签 # print (li.siblings()) #打印含有.go .ceshi的兄弟元素(同一个标签下,除了自己的其余的标签) # print (li.siblings('.aaa')) #在兄弟标签中打印出含有.aaa的标签 #遍历 #单个元素 # doc=pq(html) # li=doc('.ceshi') # print (li) # lis=doc('li').items() # print (type(lis)) # for li in lis: # print (li) #获取信息 # doc=pq(html) # a=doc('.ceshi a') # print(a.attr.href) #获取a标签中的属性 # #获取文本 # print (a.text()) # #获取HTML # print (a.html()) #DOM # doc=pq(html) # li=doc('.ceshi.aaa') # print (li) # li.removeClass('aaa') #移除aaa # print(li) # li.addClass('aaa') # print (li) #attr、css 添加属性 # doc =pq(html) # lo=doc('.ceshi') # print (lo) # lo.attr('name','11') # print (lo) # lo.css('font-size','14px') # print (lo) # #remove # html1=''' # <div class='wrap'> # hello.world # <p>11</p> # </div> # ''' # doc = pq(html1) # li=doc('.wrap') # print (li.text())#输出全部文本 # li.find('p').remove()#找到p标签删除 # print (li.text())