关闭页面特效

Python爬虫小白入门（十四）Python 爬虫 – 提取数据到Pandas DataFrame

阅读目录

抓取网页数据
提取到Pandas DataFrame

Pandas 是一个开放源码、BSD许可的库，为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。把抓取到的数据存储到Pandas DataFrame中，可以进一步对数据进行分析，是一种常见做法。

本章例子，将从豆瓣网站上抓取北美电影排行榜，并放进DataFrame中。

回到顶部

抓取网页数据

豆瓣网站上的北美电影排行榜网址，北美电影排行榜在右下边栏。

import requests
from bs4 import BeautifulSoup

page = requests.get("https://movie.douban.com/chart")
soup = BeautifulSoup(page.content, 'html.parser')

titles_tags = soup.select("ul#listCont1 > li a")
titles = [(pt.get_text()).strip() for pt in titles_tags]
print(titles)

revenue_tags = soup.select("ul#listCont1 > li span")
revenues = [(pt.get_text()).strip() for pt in revenue_tags]
print(revenues)

输出

['速度与激情：特别行动', '在黑暗中讲述的恐怖故事', '狮子王', '爱探险的朵拉：消失的黄金城', '好莱坞往事', '我在雨中等你', '地狱厨房', '蜘蛛侠：英雄远征', '玩具总动员4', '带来灵魂：电影']

['2540万', '2080万', '2000万', '1700万', '1160万', '810万', '551万', '530万', '440万', '230万']

回到顶部

提取到Pandas DataFrame

调用DataFrame类构造方法，并传入每个项列表：

import pandas as pd

movie_rank = pd.DataFrame({
    "title": titles,
    "revenue": revenues
})

movie_rank

输出

           title revenue
0     速度与激情：特别行动   2540万
1    在黑暗中讲述的恐怖故事   2080万
2            狮子王   2000万
3  爱探险的朵拉：消失的黄金城   1700万
4          好莱坞往事   1160万
5         我在雨中等你    810万
6           地狱厨房    551万
7       蜘蛛侠：英雄远征    530万
8         玩具总动员4    440万
9        带来灵魂：电影    230万

使用Pandas DataFrame就可以对数据进行进一步分析了，例如:

movie_rank.describe()

输出

       title revenue
count     10      10
unique    10      10
top      狮子王   2540万
freq       1       1

posted on 2020-06-22 11:14 大码王阅读(1715) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

青青陵上柏，磊磊涧中石。

运行时长：2258天0小时57分53秒

您的浏览器不兼容canvas

昵称：大码王
园龄： 5年8个月
粉丝： 233
关注： 30

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (719)

clickhouse(4)

flink源码分析(2)

Groovy(1)

Java(34)

Linux(3)

office(10)

OpenStack入门(1)

Phoenix+hbase(11)

photoshop(10)

python之绘图(7)

python之爬虫(15)

python之入门到实战(26)

shell大全(1)

SparkCore(14)

sparkGraphx(2)

sparksql(8)

sparkstreaming(17)

spark源码分析(11)

博客园美化(6)

操作系统(1)

随笔档案 (693)

2024年5月(4)

2024年3月(3)

2023年9月(1)

2023年4月(2)

2023年3月(4)

2023年2月(1)

2022年12月(1)

2022年11月(1)

2022年9月(2)

2022年8月(17)

2022年7月(5)

2022年5月(3)

2022年4月(18)

2021年9月(1)

2021年6月(9)

2021年5月(19)

2021年2月(1)

2021年1月(17)

2020年12月(7)

2020年11月(19)

文章分类 (35)

airflow(4)

azkban(1)

canal(1)

Cassandra(1)

datax(1)

druid(1)

Elasticsearch(8)

java(11)

mongodb(2)

redis(3)

scala(2)

文章档案 (40)

2024年4月(2)

2023年5月(2)

2023年4月(1)

2023年1月(1)

2020年6月(9)

2020年5月(25)

抓取网页数据

提取到Pandas DataFrame

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏

目录导航