摘要: 转载请注明出处 利用python2.7正则表达式进行豆瓣电影Top250的网络数据采集 1.任务 采集豆瓣电影名称、链接、评分、导演、演员、年份、国家、评论人数、简评等信息 将以上数据存入MySQL数据库 采集豆瓣电影名称、链接、评分、导演、演员、年份、国家、评论人数、简评等信息 将以上数据存入My 阅读全文
posted @ 2016-11-08 11:06 我是毛毛虫 阅读(1103) 评论(0) 推荐(0) 编辑
摘要: python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 2.分析 电影中文名的采集可以 阅读全文
posted @ 2016-11-04 10:11 我是毛毛虫 阅读(2970) 评论(0) 推荐(0) 编辑
摘要: 利用python2.7抓取豆瓣电影top250 1.任务说明 抓取top100电影名称 依次打印输出 2.网页解析 要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用的是Firefox浏览器,并安装了Firebug插件, 这个插件可以方便查看包括HTML在内许多内容 阅读全文
posted @ 2016-11-03 13:47 我是毛毛虫 阅读(1759) 评论(0) 推荐(0) 编辑
摘要: 自学python网络爬虫,发现request比urllib还是要好用一些,因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取,当然select也是一个不错的选择。下面是临时的 阅读全文
posted @ 2016-10-28 20:49 我是毛毛虫 阅读(547) 评论(0) 推荐(0) 编辑