百度 资讯 爬虫解决方案
前言:本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法
第一步:关键词搜索
1. 我们要找到适合自己的关键词,注意关键词决定着我们能否搜索到优质的数据,所以找到足够多的关键词,优质的关键词,能让我们采集更多的数据。
2.搜索按照时间大小排序,在第一页解析出来 新闻标题,新闻来源,新闻发布时间,新闻简单描述,新闻url链接。
3.新闻相信信息解析:
例如下面的这边新闻,如何解析出来红色的部分信息呢?
策略一: 使用 newspaper,优点是能解析出来大部分的网页,缺点是速度慢,这个Python第三方库不是万能的,比如一些负责的网页是解析不出来信息的。
使用代码
from newspaper import Article
url = 'http://www.npc.gov.cn/npc/zhibo/zzzb30/2018-10/26/content_2064215.htm'
a = Article(url, language='zh') # Chinese
a.download()
a.parse()
print "11111",a.text
print "22222",a.title
结果截图:
策略二: 自己写解析规则;
新闻网页都有什么解析规则呢? 比如都有 开始都有来源,时间等,结束有 责任编辑等词语,自己研究出来一个解析规则
如果觉得对您有帮助,麻烦您点一下推荐,谢谢!
好记忆不如烂笔头
好记忆不如烂笔头
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术