Pandas 是一个开放源码、BSD许可的库,为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。把抓取到的数据存储到Pandas DataFrame中,可以进一步对数据进行分析,是一种常见做法。
本章例子,将从豆瓣网站上抓取北美电影排行榜,并放进DataFrame中。
抓取网页数据
豆瓣网站上的北美电影排行榜网址,北美电影排行榜在右下边栏。
import requests from bs4 import BeautifulSoup page = requests.get("https://movie.douban.com/chart") soup = BeautifulSoup(page.content, 'html.parser') titles_tags = soup.select("ul#listCont1 > li a") titles = [(pt.get_text()).strip() for pt in titles_tags] print(titles) revenue_tags = soup.select("ul#listCont1 > li span") revenues = [(pt.get_text()).strip() for pt in revenue_tags] print(revenues)
输出
['速度与激情:特别行动', '在黑暗中讲述的恐怖故事', '狮子王', '爱探险的朵拉:消失的黄金城', '好莱坞往事', '我在雨中等你', '地狱厨房', '蜘蛛侠:英雄远征', '玩具总动员4', '带来灵魂:电影'] ['2540万', '2080万', '2000万', '1700万', '1160万', '810万', '551万', '530万', '440万', '230万']
提取到Pandas DataFrame
调用DataFrame类构造方法,并传入每个项列表:
import pandas as pd movie_rank = pd.DataFrame({ "title": titles, "revenue": revenues }) movie_rank
输出
title revenue 0 速度与激情:特别行动 2540万 1 在黑暗中讲述的恐怖故事 2080万 2 狮子王 2000万 3 爱探险的朵拉:消失的黄金城 1700万 4 好莱坞往事 1160万 5 我在雨中等你 810万 6 地狱厨房 551万 7 蜘蛛侠:英雄远征 530万 8 玩具总动员4 440万 9 带来灵魂:电影 230万
使用Pandas DataFrame就可以对数据进行进一步分析了,例如:
movie_rank.describe()
输出
title revenue count 10 10 unique 10 10 top 狮子王 2540万 freq 1 1
本文来自博客园,作者:大码王,转载请注明原文链接:https://www.cnblogs.com/huanghanyu/
分类:
python之爬虫
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具