bs4解析并提取人民网新闻标题数据

合集 - python爬虫(26)

1.使用urllib爬取百度搜索html2024-09-12 2.urllib.request.Request对象封装请求2024-09-12 3.urllib发送get请求_中文传参问题2024-09-12 4.urllib发送post请求获取html源代码2024-09-14 5.获取动态页面html2024-09-15 6.忽略SSL证书验证2024-09-15 7.使用fake-useragent库伪装请求头2024-09-15 8.urllib自定义opener对象设置代理IP2024-09-16 9.爬虫cookie的使用2024-09-17 10.保存与读取cookie2024-09-18 11.使用urllib.error进行请求异常处理2024-09-18 12.使用requests库发送get和post请求2024-09-21 13.使用Request伪装User-Agent和IP地址2024-09-22 14.requests设置超时时间/requests.Session自动保存cookie/verify忽略ssl证书2024-09-23 15.re模块的正则表达式规则2024-09-25 16.使用re的正则表达式提取腾讯体育新闻摘要2024-09-26 17.BeautifulSoup4解析数据2024-09-26 18.bs4.find_all()搜索文档树和css选择器提取解析后的html数据2024-09-28

19.bs4解析并提取人民网新闻标题数据2024-09-28

20.xpath解析数据2024-09-29 21.谷歌浏览器的xpath插件安装2024-09-30 22.使用re和lxml的xpath功能提取纵横中文网小说推荐榜前3页标题2024-10-03 23.JSON数据2024-10-03 24.使用jsonpath快速提取json的数据2024-10-04 25.提取猫眼电影正在热映电影以及评分2024-10-09 26.单线程与多线程爬虫2024-10-14

1. 目标url：http://www.people.com.cn/

2. 查找标题信息所在标签：标题的文本信息在<a>标签中，且<a>标签有target属性，属性值为"_blank"。<a>标签有父辈标签<div>和<h3>。

当需要根据元素的层级关系、属性组合等复杂条件定位时；文档层次分明时CSS选择器非常有用，对于熟悉CSS选择器的开发者来说使用CSS选择器可以使代码更加简洁易读。可以在bs4官网https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id83或Soup Sieve（通过 pip 安装 Beautiful Soup 时，Soup Sieve 也会自动安装，不用其它额外操作。）官网https://facelessuser.github.io/soupsieve/selectors/basic/中查看。

运行代码：

import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
# 请求地址
url = 'http://www.people.com.cn'
# 封装请求头
headers = {'User-Agent': UserAgent().chrome}
# 发送get请求
resp = requests.get(url, headers=headers)
# 设置编码为gbk
resp.encoding = 'gbk'
# 构建一个bs4对象
bs = BeautifulSoup(resp.text, 'lxml')
# bs4实现css选择器提取数据
infos = bs.select('div > h3 [target]')
for info in infos:
    print(info.string)

运行结果：

坚持全面深化改革开放
一面留言墙 书不尽两岸情
青海贵德：从滴水崖渡口 守护黄河安澜
谢兆寿过节记
国资委：国企到2025年须普遍推行末等调整和不胜任退出制度
国家网信办就终端设备直连卫星服务管理规定公开征求意见
越是假期 出行越繁忙 安全越重要
教育获得感更充实 支撑发展更有力
利比里亚农业部部长：“希望继续学习借鉴中方水稻种植技术”
匈塞铁路匈牙利段中方段铺轨作业基本完成
“共和国勋章”获得者、“二级战斗英雄”黄宗德：英雄的“心”
海南省部署国庆旅游和文化市场综合监管工作
国庆假期长线游成预订主流
“中网热”折射中国网球运动发展新图景
医保支付资格管理制度发布:“驾照式记分”守好医保“钱袋子”

posted @ 2024-09-28 19:40 松鼠q 阅读(19) 评论(0) 编辑收藏举报

qyly

作品集

bs4解析并提取人民网新闻标题数据

公告

搜索

常用链接

合集 (3)

随笔分类 (5)

随笔档案 (39)

文章档案 (1)

阅读排行榜