爬取豆瓣电影排名的代码以及思路

博问上到有人问的,后自己帮他代码修正了一下,其实蛮简单的一个爬虫

代码以及思路

from requests_html import HTMLSession

session = HTMLSession()  #定义一个session对象,和reuqests模块中的session是一样的

def get_movie():
    
    movie_list=[]
    
    for i in range(0, 10):  #前250名
        
        print(f'{i+1}页')
        link = f'https://movie.douban.com/top250?start={i*25}' #这里呢稍微点几页你就知道规律了
        print(link)
        response = session.get(link)   #这里很多人都有误区总是喜欢加User-Agen,个人感觉他反爬的时候用到这个再加,人家都没设这方面的反爬加了也没啥意义
        
        div_list = response.html.find('.info')  #你也可以获取info类下的电影信息

        for each in div_list:
            movie = each.text  #获取里面所有字符串
            movie_list.append(movie)  #加列表你可以存数据库,这随意
    return movie_list

if __name__ == '__main__':
    print(get_movie())

posted @ 2019-11-25 14:42 小小咸鱼YwY 阅读(834) 评论(2) 收藏举报

刷新页面返回顶部

加载时间中.....

Python 前端 爬虫 数据库 Django Flask 微信小程序 Linux Go

爬取豆瓣电影排名的代码以及思路

代码以及思路

公告

加载时间中.....

Python 前端 爬虫 数据库 Django Flask 微信小程序 Linux Go

爬取豆瓣电影排名的代码以及思路

代码以及思路

公告

Python 前端爬虫数据库 Django Flask 微信小程序 Linux Go