网络爬虫基础练习
import requests from bs4 import BeautifulSoup newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(newsurl) res.encoding='utf-8' soup = BeautifulSoup(res.text,'html.parser') h1=soup.h1 if(h1!=None): print(h1.text) else: print("不存在h1标签") a=soup.a if(a!=None): print(a.attrs.get('href')) else: print("不存在a标签") li_list=soup.select("li") for i in soup.select("li"): print(i.text) if(len(li_list)==0): print("不存在li标签") li=soup.select_one(".news-list").select_one("li") print(li.select_one(".news-list-title").text) print(li.a.attrs.get('href')) print(li.select_one(".news-list-info").contents[0].text) print(li.select_one(".news-list-info").contents[1].text)
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步