python爬虫练习3——豆瓣电影

网址:豆瓣电影 (douban.com)

和豆瓣读书类似,需要对爬虫的headers进行处理。

 

 

复制代码
import requests
import re

for i in range(0,2):
    j = i*20
    url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=rank&page_limit=20&page_start='+str(j)
    ua = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59'}
    r =  requests.get(url ,headers = ua , timeout = 30)
    #print(r.encoding,r.status_code)

    pat = '"title":"(.*?)","url"'
    pat1 = '"rate":"(.*?)","cover_x"'
    til = re.compile(pat,re.S).findall(r.text)
    rat = re.compile(pat1,re.S).findall(r.text)

    print(til,rat)
    print('---------------')
    
复制代码

 

 

至于如何把电影名称和评分放在一起,小编初学还未想好,欢迎读者留言指导。

 

posted @   徐海建  阅读(92)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
点击右上角即可分享
微信分享提示