安装 pip install requests-html
#2种方式爬取 博客园
from requests_html import HTMLSession
session=HTMLSession()
r=session.get('https://news.cnblogs.com/')
#通过CSS找到新闻标签
news=r.html.find('h2.news_entry a')
for i in news:
print(i.text) # 获得新闻标题
print(i.absolute_links) # 获得新闻链接
#通过xpath找到新闻标签
news=r.html.xpath('//div[@id="news_list"]//div[@class="content"]/h2/a')
for i in news:
print(i.text)
print(i.absolute_links)
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步