随笔分类

随笔档案

阅读排行榜

评论排行榜

最新评论

1. Re:Celery 异步任务 , 定时任务 , 周期任务的芹菜
写得赞，作者用心了。但主要还是celery太难了。此国产分布式函数调度框架，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全...
--北风之神0509
2. Re:requests_html 使用
名字真骚气
--拓荒牛wr

requests_html 使用

安装   pip install requests-html

#2种方式爬取  博客园
from requests_html import HTMLSession

session=HTMLSession()

r=session.get('https://news.cnblogs.com/')
#通过CSS找到新闻标签
news=r.html.find('h2.news_entry  a')

for i in news:
    print(i.text) # 获得新闻标题
    print(i.absolute_links)  # 获得新闻链接


#通过xpath找到新闻标签
news=r.html.xpath('//div[@id="news_list"]//div[@class="content"]/h2/a')

for i in news:
    print(i.text)
    print(i.absolute_links)

posted on 2019-03-10 21:22 骑骡子赶猪阅读(286) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

导航

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论


Copyright © 2025 骑骡子赶猪 Powered by .NET 9.0 on Kubernetes 博客园