python爬取并下载麦子学院所有视频教程

一、主要思路

scrapy爬取是有课程地址及名称
使用multiprocessing进行下载
就是为了爬点视频，所以是简单的代码堆砌
想而未实行，进行共享的方式

二、文件说明

itemsscray字段
piplines.py存储数据库
setting.py scrapy配置需要注意的是DEFAULT_REQUEST_HEADERS的设置，需要模拟登录
mz.py是主要爬虫都是基本的爬虫功能，css+xpath+正则
start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的，可根据需要进行，或者全部，
本想不存储进数据库，直接在mz.py进行下载，但考虑到位会影响scrapy原有的性能，单独进行下载

down.py 使用multiprocessing进行下载原本想着动态监听scrapy在数据库的中的结果，想实现进程的共享，调试多次还出现问题所以直接用Pool.Map（）这种比较粗暴的方式，
mz.json现存取进json，但考虑到来回操作json文件，影响效率，所以改用数据库

三、结果

源码 :https://git.oschina.net/getsai/mzSpider.git
视频地址：https://yunpan.cn/crjXKLGnkpzPk 访问密码 6c15

来自为知笔记(Wiz)

posted @ 2016-01-18 19:47 yinsolence 阅读(4222) 评论(14) 编辑收藏举报

刷新页面返回顶部