随笔- 421 文章- 0 评论- 25 阅读- 60万

【Python】【爬虫】+爬取新闻

目录

一、爬取今日头条的新闻

参考文章：https://www.cnblogs.com/lizm166/p/9634306.html

破解参数（as ,cp，_cp_signature）：https://blog.csdn.net/weixin_39416561/article/details/82111455

一、爬取今日头条的新闻

step1：获取新闻列表找出要查找的新闻的ID

url=https://www.toutiao.com/api/pc/feed/?category=news_hot&utm_source=toutiao&widen=1&max_behot_time=0&max_behot_time_tmp=0&tadrequire=true&as=A1552DAB860A86B&cp=5DB60AA876CB0E1&_signature=e9pbGAAAJm-CIbMXRdNvUHvaWw
动态参数：“_signature” （估计应该是按天的每天请求都要用不同的值）
请求方式：GET
请求头：user-agent：加上自己对应的值即可（只需要添加这一个请求头即可）

step2：根据新闻ID获取此新闻的详细数据

注意：ID前有个“a”、获取到的数据为HTML格式的
url=https://www.toutiao.com/a6752705668907532808/
请求方式：GET

step3：解析HTML数据

把获取到的HTML信息中的数据解析

此新闻的链接（共需要查看时用）
此新闻的标题
此新闻的内容

posted @ 2019-10-28 11:38 淡怀阅读(957) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义

公告

昵称：淡怀
园龄： 6年1个月
粉丝： 26
关注： 3

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

相册

com(1)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:【IDEA】控制台console输出的日志内容保存至文件
@淡怀刚学，这个IDEA的一些配置我确实很多都不懂，谢谢了...
--不瘦25斤不换头像
2. Re:【IDEA】控制台console输出的日志内容保存至文件
@不瘦25斤不换头像点击Edit ConFigurations后你试试点到你的那个Junit看看有没有呢（因为我的是TestNg 是测试的你这个Spring Boot不是测试的所以可能没有lo...
--淡怀
3. Re:【IDEA】控制台console输出的日志内容保存至文件
作者你好，您的Idea的Edit ConFigurations为什么这样配置呢？请问为为什么我Idea的Edit ConFigurations是这个？
--不瘦25斤不换头像
4. Re:【Java】java: 无法访问org.testng.annotations.Test
感谢
--简简简
5. Re:【Jira】实时获取工时
这是你们自己开发的插件么？为什么我打不开这个，在插件库里也没有
--nova_qi
6. Re:【VSCode】代码行数统计/vs code counter
有毒
--星马豪
7. Re:【Java】java: 无法访问org.testng.annotations.Test
感谢!!!
--ding-yu
8. Re:【前端】相关高效率工具（已更新30个）
博主好棒，css网站，js工具网站，style网站，样式库很全。
--门外汉DBKYID
9. Re:【Java】+ 【wss】 + WebSocketClient
请求头有Sec-WebSocket-Extensions:permessage-deflate;这个的话不报错 org.java_websocket.exceptions.InvalidFrameEx...
--寻梦bky
10. Re:【Python】生成随机姓名
学习一下思路
--hzoldeleven
11. Re:【Python】【PyPI】twine模块打包python项目上传pypi
没成功啊，咋回事
--苏希森
12. Re:【Java】+删除String数组中的所有空值
直接Arrays.asList得到list对象，然后转为stream流，过滤返回集合就好了
--mumucgq
13. Re:【Java】+ 【wss】 + WebSocketClient
你好，能抽空留个联系方式，wss方面有些问题想要请教一下
--愤青程序猿
14. Re:【IDEA】+APP开发+打包+发布
@
当时写了个提纲忘了完善了哈哈哈
--淡怀
15. Re:【IDEA】+APP开发+打包+发布
你这个也太简洁了，哈哈哈
--torchstar
16. Re:【python】+tushare库+判断指定日期是否是交易日
tushare太慢了，要2秒以上
--newhackerman
17. Re:【Java】+获取Linux服务器的CPU、内存使用率
大佬好
请问 ZgxStringUtil和ZgxLoggerUtil是你自己封装的工具类吗？方便提供下吗？
--南轲
18. Re:【杂项】1
关注四六级小助手服务号

回复【过级词汇】获取
--淡怀
19. Re:【杂项】1
1、 y=kx+b k、b为具体的数值这是一条线可以预测出来 2、股票上市以来以每天的收盘价为准也可以绘制出一条线来看这条线能不能用“y=kx+b”来表示（x：日期 y：当日收盘价）...
--淡怀
20. Re:【杂项】1
【使用TensorFlow编写您的第一个神经网络 - 今日头条】
--淡怀
21. Re:【Java】+获取Linux服务器的CPU、内存使用率
@liuzihong 这两个是官方的哈你直接导入就行了 import com.csvreader.CsvReader; import com.csvreader.CsvWriter; <depend...
--淡怀
22. Re:【Java】+获取Linux服务器的CPU、内存使用率
com.csvreader.CsvReader;
com.csvreader.CsvWriter;这两个也请发一下呗
--liuzihong
23. Re:【数据库】+visual paradigm+换行
非常感谢，本来visual paradigm相关博客就不多，能看到真的感谢
--Hassan川枫
24. Re:【Java】+获取Linux服务器的CPU、内存使用率
@0810 ZgxFileUtil工具更新到文章了...
--淡怀
25. Re:【Java】+获取Linux服务器的CPU、内存使用率
import com.alipay.ipay.gn.commontool.file.ZgxFileUtil您这个工具类在哪找呢
--0810

目录导航