爬虫之搜狗

爬虫搜狗的新闻 的超链接以及文字

import requests
from bs4 import BeautifulSoup
import time
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}
r = requests.get("https://www.sogou.com/",headers=headers)
r.encoding = 'utf-8'
soup=BeautifulSoup(r.text,'lxml')
#根据li来查找
ip=soup.find_all("li")[15]
#根据id 查找            [0] 是取出里面的元素
news=soup.find_all(id='news')[0]
print(news.string) #  新闻
print(ip)     #<li><a href="http://news.sogou.com" id="news" onclick="st(this,'40030300','news')" uigs-id="nav_news">新闻</a></li>
print(ip.a.get('href'))  # http://news.sogou.com
print(ip.a.string) #  新闻

posted @ 2020-01-28 10:42  Tony小哥  阅读(302)  评论(0编辑  收藏  举报