喜欢看电影来哦！教你如果使用Python网络爬虫爬取豆瓣高分电影！

【一、项目背景】

豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。可以记录想看、在看和看过的电影电视剧、顺便打分、写影评。极大地方便了人们的生活。

今天以电视剧（美剧）为例，批量爬取对应的电影，写入csv文档。用户可以通过评分，更好的选择自己想要的电影。

【二、项目目标】

获取对应的电影名称，评分，详情链接，下载电影的图片，保存文档。

【三、涉及的库和网站】

1、网址如下：

https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start={}

2、涉及的库：requests****、fake_useragent、json****、csv

3、软件：PyCharm

【四、项目分析】

1、如何多网页请求?

点击下一页时，每增加一页paged自增加20，用{}代替变换的变量，再用for循环遍历这网址，实现多个网址请求。

2、如何获取真正请求的地址？

请求数据时，发现页面上并没有对应数据。其实豆瓣网采用javascript动态加载内容，防止采集。

1）F12右键检查，找到Network，左边菜单Name , 找到第五个数据，点击Preview。

2）点开subjects，可以看到 title 就是对应电影名称。rate就是对应评分。通过js解析subjects字典，找到需要的字段。

如何网页访问？

https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=0



https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=20



https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=40



https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=60

当点击下一页时，每增加一页page自增加20，用{}代替变换的变量，再用for循环遍历这网址，实现多个网址请求。

【五、项目实施】

1、我们定义一个class类继承object，然后定义init方法继承self，再定义一个主函数main继承self。导入需要的库和请求网址。