摘要: python scrapy版 极客学院爬虫V21 基本技术 使用scrapy2 这个爬虫的难点是 Request中的headers和cookies 尝试过好多次才成功(模拟登录),否则只能抓免费课程3文件树如下│ jike.json 存储json文件│ run.py ... 阅读全文
posted @ 2015-09-07 16:15 yinsolence 阅读(1379) 评论(1) 推荐(0) 编辑
摘要: 定向爬取极客学院视频,原本只有年费VIP只能下载,经过分析,只要找个免费体验VIP即可爬取所有视频 涉及的基本技术:python xpath 正则 com 通过python调用迅雷从组件,实现自动创建文件夹和自动添加批量下载任务,前提要成功安装迅雷和迅雷组件 思路:path路径爬取所有标签-》搜索页面所有该课程分类-》课程页面获取课程明细-》正则分析视频地址 极客学院的一直在改进,可能需要自己改 阅读全文
posted @ 2015-09-07 09:51 yinsolence 阅读(1442) 评论(4) 推荐(3) 编辑