py网络爬虫基础练习

1. 取出h1标签的文本

soup.h1.text


2. 取出a标签的链接

soup.a.attrs['href']


3. 取出所有li标签的所有内容

for i in soup.select('li'):
    print(i.contents)


4. 取出第2个li标签的a标签的第3个div标签的属性

soup.select('li')[1].a.select('div')[2].attrs

5. 取出一条新闻的标题、链接、发布时间、来源

soup.select('.news-list-title')[0].text
soup.select('li')[2].a.attrs['href']
soup.select('.news-list-info')[0].contents[0].text
soup.select('.news-list-info')[0].contents[1].text
posted @ 2018-03-28 20:17  162--麦振澎  阅读(167)  评论(0编辑  收藏  举报