python爬取电影演员数据
可以使用Python中的BeautifulSoup和Requests库来爬取网络上的电影数据和演员数据。
首先需要使用Requests库发送网络请求,获取HTML页面的源代码。然后,使用BeautifulSoup库解析HTML代码,提取需要的数据。
下面是一个示例代码,用于从IMDb网站上获取电影"Titanic"的演员列表,以及他们的角色信息:
import requests
from bs4 import BeautifulSoup
# 发送GET请求,获取网页源代码
url = "https://www.imdb.com/title/tt0120338/fullcredits"
response = requests.get(url)
html = response.content
# 解析HTML代码,提取演员和角色信息
soup = BeautifulSoup(html, "html.parser")
cast_list = []
tables = soup.find_all("table", {"class": "cast_list"})
for table in tables:
rows = table.find_all("tr")
for row in rows:
cols = row.find_all("td")
if len(cols) == 4:
actor = cols[1].find("a").text.strip()
character = cols[3].text.strip()
cast_list.append((actor, character))
# 打印演员和角色信息
for actor, character in cast_list:
print(actor, "-", character)
在上面的示例代码中,首先我们发送了一个GET请求来获取电影网页上的HTML代码。
然后,使用BeautifulSoup库的"find_all"方法查找演员和角色信息的表格。
接着,遍历表格中的所有行和列,提取出演员和角色信息,将这些信息存储到一个列表中。最后,我们打印出演员和角色信息。
如果你想要获取其他数据,可以根据需要在代码中进行修改。需要注意的是,爬取网页数据需要遵守相关法律法规和网站的规定,否则可能会引起问题。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!