python爬虫---豆瓣Top250电影采集

代码:

复制代码
import requests
from bs4 import BeautifulSoup as bs
import time

def get_movie(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9"
    }

    resp = requests.get(url, headers=headers).text
    soup = bs(resp, "html.parser")

    items = soup.find_all("div", class_="hd")

    for i in items:
        tag = i.find("a")
        link = tag["href"]
        name = tag.find(class_="title").text
        print("电影名称:%s,电影地址:%s" % (name, link))


url = "https://movie.douban.com/top250?start={}"
urls = [url.format(num * 25) for num in range(10)]
for link in urls:
    get_movie(link)
    time.sleep(1)
复制代码

 

posted @   睡觉不困  阅读(76)  评论(0编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
点击右上角即可分享
微信分享提示