python3爬取电影数据

  爬取电影票房数据,用于统计建模分析。目标网站为电影票房数据库(http://58921.com/alltime).

  基本的爬取静态网站的技术,模拟登陆使用的是最简单的cookies。(这种模拟登陆的方式虽然简单但有很大的局限性,时效性比较短,也许两三天后就失效了,或者网页改版一点也会导致失效。最好的方式还是找到登陆页面,获取需要提交的数据和提交方式,模拟我们正常登陆的方式进行数据提交。)

       然后,分析页面,用正则表达式匹配需要的信息,然后抓取信息,保存在excel表格里。

  不过这个网站的数据还是有很多问题,不少数据是缺失的,而且数据杂乱,演员数据要么重复,要么几个 名字连在一起。还需要进行数据清洗,不能直接使用。

  代码放在github上:https://github.com/JXC321/-.git

posted @ 2017-08-02 09:11  佳星辰  阅读(2784)  评论(0编辑  收藏  举报