欢迎这位怪蜀黍来到《Python爬虫小白入门(十四)Python 爬虫 – 提取数据到Pandas DataFrame - 大码王 - 博客园》

关闭页面特效

 


Pandas 是一个开放源码、BSD许可的库,为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。把抓取到的数据存储到Pandas DataFrame中,可以进一步对数据进行分析,是一种常见做法。

本章例子,将从豆瓣网站上抓取北美电影排行榜,并放进DataFrame中。

抓取网页数据

豆瓣网站上的北美电影排行榜网址,北美电影排行榜在右下边栏。

复制代码
import requests
from bs4 import BeautifulSoup

page = requests.get("https://movie.douban.com/chart")
soup = BeautifulSoup(page.content, 'html.parser')

titles_tags = soup.select("ul#listCont1 > li a")
titles = [(pt.get_text()).strip() for pt in titles_tags]
print(titles)

revenue_tags = soup.select("ul#listCont1 > li span")
revenues = [(pt.get_text()).strip() for pt in revenue_tags]
print(revenues)
复制代码

输出

['速度与激情:特别行动', '在黑暗中讲述的恐怖故事', '狮子王', '爱探险的朵拉:消失的黄金城', '好莱坞往事', '我在雨中等你', '地狱厨房', '蜘蛛侠:英雄远征', '玩具总动员4', '带来灵魂:电影']

['2540万', '2080万', '2000万', '1700万', '1160万', '810万', '551万', '530万', '440万', '230万']

提取到Pandas DataFrame

调用DataFrame类构造方法,并传入每个项列表:

import pandas as pd

movie_rank = pd.DataFrame({
    "title": titles,
    "revenue": revenues
})

movie_rank

输出

复制代码
           title revenue
0     速度与激情:特别行动   2540万
1    在黑暗中讲述的恐怖故事   2080万
2            狮子王   2000万
3  爱探险的朵拉:消失的黄金城   1700万
4          好莱坞往事   1160万
5         我在雨中等你    810万
6           地狱厨房    551万
7       蜘蛛侠:英雄远征    530万
8         玩具总动员4    440万
9        带来灵魂:电影    230万
复制代码

使用Pandas DataFrame就可以对数据进行进一步分析了,例如:

movie_rank.describe()

输出

       title revenue
count     10      10
unique    10      10
top      狮子王   2540万
freq       1       1

 

 posted on   大码王  阅读(1715)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具

成都

复制代码

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示

目录导航