python爬取电影演员数据

可以使用Python中的BeautifulSoup和Requests库来爬取网络上的电影数据和演员数据。

首先需要使用Requests库发送网络请求，获取HTML页面的源代码。然后，使用BeautifulSoup库解析HTML代码，提取需要的数据。

下面是一个示例代码，用于从IMDb网站上获取电影"Titanic"的演员列表，以及他们的角色信息：

import requests
from bs4 import BeautifulSoup

# 发送GET请求，获取网页源代码
url = "https://www.imdb.com/title/tt0120338/fullcredits"
response = requests.get(url)
html = response.content

# 解析HTML代码，提取演员和角色信息
soup = BeautifulSoup(html, "html.parser")
cast_list = []

tables = soup.find_all("table", {"class": "cast_list"})
for table in tables:
    rows = table.find_all("tr")
    for row in rows:
        cols = row.find_all("td")
        if len(cols) == 4:
            actor = cols[1].find("a").text.strip()
            character = cols[3].text.strip()
            cast_list.append((actor, character))

# 打印演员和角色信息
for actor, character in cast_list:
    print(actor, "-", character)

在上面的示例代码中，首先我们发送了一个GET请求来获取电影网页上的HTML代码。

然后，使用BeautifulSoup库的"find_all"方法查找演员和角色信息的表格。

接着，遍历表格中的所有行和列，提取出演员和角色信息，将这些信息存储到一个列表中。最后，我们打印出演员和角色信息。

如果你想要获取其他数据，可以根据需要在代码中进行修改。需要注意的是，爬取网页数据需要遵守相关法律法规和网站的规定，否则可能会引起问题。

posted @ 2023-05-16 16:24 YE- 阅读(191) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· python爬取电影演员一生拍摄电影的数量

· python爬取《肖申克的救赎》电影演员

· Python使用BeautifulSoup爬取人人影视的详情页面

· Python爬取网页上想要的数据

· 【python爬虫案例】利用python爬取豆瓣电影TOP250评分排行数据！

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！

公告

昵称： YE-
园龄： 2年8个月
粉丝： 13
关注： 4

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:java.io.FileNotFoundException: class path resource [bean.xml] cannot be opened because it does not exist
我 Beans.xml 文件名前面多了个空格才找到错误
--swy4four
2. Re:组合模式
这这这，看不懂，有请下一位
--lsyy1
3. Re:HOSTS文件异常，IE代理异常导致浏览器连不上网络
这个只能暂时解决, 过段时间又会这样
--hhhhhhard
4. Re:九月八号今日总结
不信
--lsyy1
5. Re:个人总结
@我命倾尘谢谢学长！！！我咨询过建民老师，老师说，必须懂得基本的原理，追求技术太难了，因为技术迭代很快，要求我们把界面写好点。我打算暑假学python和java的基本原理，还有大数据来着，结合学长...
--YE-