pyquery 的一些具体的用法--例如判断有什么等
def extract_question(doc): list_ques=[] questions = doc('.ContentItem-title') #选择class为ContentItem-title的标签
questions = questions.find('meta[itemprop="name"]') #查找meta标签,并且它的属性itemprop="name"为这个meta标
for question in questions.items(): list_ques.append(question.attr('content')) #获取content属性的值 return list_ques def extract_author(doc): list_author=[] autors = doc('.UserLink.AuthorInfo-name') #选择class为UserLink和AuthorInfo-name的标签
for autor in autors.items():
if autor("span a"): #如果span里面包含a标签的话
#list_author.append(autor.find('a.UserLink-link').text())
list_author.append(autor("span a.UserLink-link").text()) #获取span下面的a标签,并且a标签的class为UserLink-link的内容
else:
list_author.append(autor.text())
return list_author
def extract_time(doc):
list_time=[]
creattimes = doc('meta[itemprop="dateCreated"]') #选择meta标签,并且有属性值itemprop="dataCreated"的meta标签。
for time in creattimes.items():
list_time.append(time.attr('content')) #获取content属性的值
return list_time
判断html中的div是否含有a标签、img标签
if h("div img"): print(h("div img").attr("alt")) # 提取img标签alt属性的内容 if h("div a"): print(h("div a").text()) # 提取a标签的内容 if h("div span"): print(h("div span").text()) # 提取span标签的内容 else:
print(False)
具体参考
https://blog.csdn.net/weixin_44606217/article/details/100552319
"""判断含有输出True,不含有输出False""" if h("div ul.m"): print('h1:',True) if h("div ul.n"): print('h2:',True) else:
print(False)
具体参考
https://blog.csdn.net/weixin_44606217/article/details/100552319