import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'http://top.baidu.com/buzz?b=62'
headers = {'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362'}#伪装爬虫
r=requests.get(url)#发送get请求
r.encoding=r.apparent_encoding#统一编码
t=r.text
soup=BeautifulSoup(t,'lxml')#提取html并解析内容
title=[]#创建两个列表
index=[]
for y in soup.find_all(class_="keyword"):#使用find all方法
title.append(y.get_text().strip())
for x in soup.find_all('td', class_="last"):#查找以td标签的内容
index.append(x.get_text().strip())
data=[title,index]
print(data)
s=pd.DataFrame(data,index=["标题","搜索指数"])#使用工具使其可视化
print(s.T)
[['魔域\nsearch', '英雄联盟\nsearch', '我的世界\nsearch', '梦幻西游\nsearch', 'dota2\nsearch', '坦克世界\nsearch', '冒险岛\nsearch', '龙之谷\nsearch', '守望先锋\nsearch', '跑跑卡丁车\nsearch', '逆水寒\nsearch', '穿越火线\nsearch', '流放之路\nsearch', '剑灵\nsearch', '战舰世界\nsearch', '天涯明月刀\nsearch', '激战2\nsearch', 'qq飞车\nsearch', '剑网3\nsearch', '300英雄\nsearch'], ['47426', '25213', '23726', '10498', '9962', '9894', '9740', '6858', '5567', '4733', '4111', '4058', '3970', '3708', '3519', '3225', '3050', '2884', '2812', '2643']]
标题 搜索指数
0 魔域\nsearch 47426
1 英雄联盟\nsearch 25213
2 我的世界\nsearch 23726
3 梦幻西游\nsearch 10498
4 dota2\nsearch 9962
5 坦克世界\nsearch 9894
6 冒险岛\nsearch 9740
7 龙之谷\nsearch 6858
8 守望先锋\nsearch 5567
9 跑跑卡丁车\nsearch 4733
10 逆水寒\nsearch 4111
11 穿越火线\nsearch 4058
12 流放之路\nsearch 3970
13 剑灵\nsearch 3708
14 战舰世界\nsearch 3519
15 天涯明月刀\nsearch 3225
16 激战2\nsearch 3050
17 qq飞车\nsearch 2884
18 剑网3\nsearch 2812
19 300英雄\nsearch 2643
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?