爬虫之搜狗
爬虫搜狗的新闻 的超链接以及文字
import requests
from bs4 import BeautifulSoup
import time
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}
r = requests.get("https://www.sogou.com/",headers=headers)
r.encoding = 'utf-8'
soup=BeautifulSoup(r.text,'lxml')
#根据li来查找
ip=soup.find_all("li")[15]
#根据id 查找 [0] 是取出里面的元素
news=soup.find_all(id='news')[0]
print(news.string) # 新闻
print(ip) #<li><a href="http://news.sogou.com" id="news" onclick="st(this,'40030300','news')" uigs-id="nav_news">新闻</a></li>
print(ip.a.get('href')) # http://news.sogou.com
print(ip.a.string) # 新闻
不停的思考,就会不停的进步