爬虫小案例——爬取豆瓣电影

分析

https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E9%9D%92%E6%98%A5&start=0&genres=%E5%89%A7%E6%83%85&countries=%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86&year_range=2019,2019

sort=U 近期热门

S 评分最高

range=0，10 评分区间筛选

start=0 控制起始id

year_range=2019,2019 年份

tags 电影形式

genres 电影类型

country 国家

print(str('电影'.encode('utf-8')).strip("b'").upper().replace('\X', '%')) # %E7%94%B5%E5%BD%B1

代码

from requests_html import HTMLSession

session = HTMLSession()

# 测试
url = 'https://movie.douban.com/tag/#/?sort=U&range=0,10&tags=2018'
r = session.get(url=url)
r.html.render()    # 调用render，启用浏览器内核，对浏览器进行渲染
# print(r.html.html)

movie_element_list = r.html.find('.list-wp a[class="item"]')
# print(movie_element_list)
for element in movie_element_list:
    movie_detail_url = element.attrs.get('href')                       # 电影详情页
    print(movie_detail_url)
    movie_img_url = element.find('img', first=True).attrs.get('src')   # 电影图片url
    print(movie_img_url)
    movie_name = element.find('[class="title"]', first=True).text      # 电影名字
    print(movie_name)
    print('-'*30)

结果

posted @ 2019-08-09 20:23 困了就睡觉觉 Views(654) Comments(0) 收藏举报

刷新页面返回顶部

困了就睡觉觉

爬虫小案例——爬取豆瓣电影

分析

代码

结果

公告